美文网首页工具癖
工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?

作者: c67a5dea0ca4 | 来源:发表于2019-02-26 00:03 被阅读11次

    这是 公众号:【朱利安笔记】 2019年的第二篇原创文章。


    大部分来深圳追逐梦(ban)想(zhuan)的人,除非家里有矿或拼搏了几年,不然都只能选择租房。

    但每次租房的时候,都需要交一笔4位数的中介费,真的心疼自己。

    这次呢,教你如何自己动手,丰衣足食,自己筛选有效的房源,找到自己理想的租房,免掉这笔4位数的中介费。

    正文前,先来叨磕几句。

    你为什么搬家?


    根据我观察身边人的经验,大多数租房的人,不到两年就会搬一次家,问到原因的话,无非是以下几种

    1. 换工作了/换公司了/公司搬了

    毕竟每天如果花上一两个小时的时间上班,那真的太痛苦了

    2. 合租的室友变动

    这种现象特别容易出现在大的合租房子,例如,4室2厅,3室1厅等,刚毕业的时候,大伙一起热火朝天,都住在同一个房子,但是人越多,其实越不稳定,没多久,因为工作的变动,大家四散东西,很快,这种大房子就没办法再住下去了。

    特别是大城市压力大,而二三线城市近年来发展也不错,不少人毕业后在大城市待上一两年之后,选择回老家发展,当然这也不失为是一种好的选择,只是会因此导致了合租无法再继续。

    3. 找到了男/女朋友了

    原本独居,但因为想要和喜欢的人腻在一起,或者想要那种两个人互相对上眼,就无法出门的同居的日子:),所以就搬一起

    4. 分手…

    原本同居,后来分手了,一起养的猫,也被Ta带走了…

    深圳的租房市场现状


    链家数据-2017

    看一组数据了解深圳租房的市场状况(来源:链家网2017年年末发布的《深圳租房报告》)

    · 整体

    深圳实际管理人口超过2000万,有80%人租房,全深圳市一共有1040万套住房,其中70%房子在出租。

    · 供给方面

    深圳的740万套租赁住房中,城中村租赁住房达450万套,占比为60.8%

    而这450万套城中村租房中,73.8%的城中村住房租金在2000元以内,26.1%的租金水平在1000元以内。

    · 需求方面

    租客方面,目前有超过52%的深圳租客,其月租金支付不到2000元,18.2%的租客其月租金支付甚至在1000元以内。

    看到这组数据的时候,还是觉得蛮欣慰的,虽然现在的房价高到让人怀疑人生,但是租房的价格比起北京,算是还过得去的。

    并且北京和上海不少地区都是押一付三,这对于刚毕业的大学生而言很不友好,而在深圳普遍都是押二付一,或者押一付一。

    自如数据-2019

    网上看到的最新数据的自如统计的合租房源单间价格如下,链接见文末。

    · 南山区-南山中心

    · 南山区-西丽

    · 宝安-西乡

    个人不靠谱估算,将「自如的价格 - 300~500」,差不多是周边城中村的合租时候单间的价格,如果所以租房的时候,自己也有个心理预估价格,如果太便宜的,要多个心了。


    好了,进入正题,如何使用豆瓣找房。

    如何使用豆瓣找房?


    1、豆瓣的租房信息在哪?

    答案是——豆瓣小组

    为了省下4位数的中介费用,网友自发建立了豆瓣租房小组,房东自己跑到豆瓣小组上发布的房源,而不少想合租的人,也会跑到豆瓣上发布合租或求租信息。

    豆瓣,一直以来都是文艺青年聚集之地,从社区氛围上,首先就过滤掉了一些奇奇葩葩的合租舍友。

    再者,豆瓣小组对于中介非常反感,鼓励小组内的人,积极举报,所以中介相对较少,这在一定程度上减少垃圾信息。

    (刚毕业那会真的被恶心到,58上看到的中介发帖,价格几乎都是虚标,标题党吸引你加微信,然后看房后再告诉你真正价格,浪费时间)

    2、如何高效的利用豆瓣租房信息?

    豆瓣小组上虽然有不少租房的信息,但豆瓣网一直高冷的基调,并没有提供标签,筛选,搜索等功能,对信息筛选而言,非常的不方便,自己一个个看下来,非常低效。

    加上每天发帖的网友聚众多,想在其中找到符合自己的租房,真的是非常花精力的一件事情。

    既然在网上直接浏览信息不方便,那我们就把它全部都爬下来,再通过excle高效筛选吧。

    3、不会代码怎么爬取豆瓣的租房信息?

    这里推荐大家使用一个工具叫「八爪鱼采集器」

    只要简单的配置之后即可爬取豆瓣租房的信息,不需要码一行代码!


    操作步骤如下:

    1)找到豆瓣租房小组的链接

    在开始爬之前,至少你要知道爬哪些信息对不对

    进入豆瓣小组,搜索「深圳 租房」,会出来一堆小组,选择人多,发帖多靠谱的小组(自己点击进去看看)


    如果你实在是懒癌+选择困难症。。。

    推荐下面2个小组

    · 深圳南山租房(个人房源免费推广)    

    https://www.douban.com/group/nanshanzufang/

    需要其他区的,进入后公共栏会有链接

    · 深圳1号罗宝地铁沿线租房

    https://www.douban.com/group/luobao1haoxian/

    其他 地铁线的,进入小组公共后会有链接

    PS:如果要发布「合租」「求租」「个人直租」的,需要先加入小组,才能发帖

    推荐1个豆瓣小站

    · 深圳租房团(不欢迎中介)

    https://site.douban.com/227778

    · 非深圳的盆友

    进入「豆瓣小组」内,搜索「租房小组」

    或直接输入链接访问,https://www.douban.com/group/fangzi/

    这个小组内,良心网友整理了各地的靠谱的租房小组,直接点击跳转访问即可

    注意:

    信息不要贪多!

    信息不要贪多!

    信息不要贪多!

    例如你本来在南山工作,根本不打算在「龙岗」或「罗湖」找房,就不要打开「龙岗」或「罗湖」的小组,或者进入根本不区分行政区的小组(整个深圳市的信息都在里面的那种),不然后面爬完一堆信息,筛选会筛选到你想哭。

    2)下载安装「八爪鱼采集器」

    进入官网 http://www.bazhuayu.com/download

    (八爪鱼应该给我广告费的:P)

    3)注册

    由于软件需要登录后才能使用,下载的期间,顺便注册个账号

    4)登录

    5)创建采集任务

    1. 选择自定义采集

    2. 输入要采集的网站(就是第一步中找到的豆瓣小组,链接)

    3. 配置采集流程

    · 找到帖子 列表页面 的入口

    滑动打开的豆瓣小组页面,到最底部,找到「更多小组讨论」

    · 点击进入 列表页面

    选择「点击该链接」,进入小组帖子的列表页面

    设定 列表页面 循环

    选择「循环」点击「后页」,这样就能采集完一页后自动跳转到下一页采集

    · 循环点击 列表内的 每一个帖子

    点击帖子的标题,选择「循环点击」,这样就能在采集完一个帖子后继续采集下一个帖子

    · 设定要采集的内容

    打开流程配置

    · 采集标

    设定我们要采集的一个帖子中的内容,选择「采集标题」

    · 采集时间

    采集内容 - 时间,太老的帖子很可能早就不租了,所以时间也是参考信息 

    · 采集租房信息详情(注意,这种采集是不带图片的)

    虽然没有图片,但是通过文字信息大致能确认是否是自己想要的了,确定后,再点击「链接」来查看帖子详情

    · 采集链接

    帖子的内容浏览后,觉得这个房子OK,再通过采集的链接,查看帖子中的图片,或者他人的评论内容

    · 保存

    保存,开!始!采!集!

    · 启动

    开始本地采集

    · 放着电脑等采集完

    程序开始 吭哧吭哧 的自己采集后,这时候你可以去吃个饭,扫个地,听个歌啥的。

    等采集到足够的数据后(例如400条),自己点击「停止采集」,「导出数据」

    因为之前有其他需要买了会员,不知道现在免费账号导出要不要收费,印象中单次采集数据量小于1W条导出是免费的


    4、如何处理扒下来的信息

    拿到数据后,直接一条条看?

    OUT!这样会有大量的无用数据,浪费时间。

    根据我在实习时候导师教我的,正确的数据处理流程应该如下

    「原数据备份-清洗(去重,补齐,去脏数据)-筛选-分析」

    1)清洗

    处理数据的原则1——保留原数据,方便回溯

    新建「Sheet2」表格,将「Sheet1」的数据复制过来,在「Sheet2」折腾

    1. 去除性别限制的

    在「sheet2」表格中搜索,「限*女生」,「限*妹纸」,删除!

    当然,如果你是个妹子的话,那么你就只看「限*女生」,「限*妹纸」

    扯个题外话,采集的时候,发现租房百态,真的限制什么的都有,哈哈哈哈哈

    · 限制女生

    这个好理解

    · 限制男生

    都是男生,担心女生进来,女生会不安全。。。

    · 仅可以男女朋友或夫妻一起住进来,不能单独女生

    我看了下,发帖合租的是个女生,和男朋友一起住,空了一个房间,所以这个限制条件,不用我多解释了吧。

    2. 去除多人的

    我不喜欢多人合租,三人可以接受,以上的真的受不了,不是不喜欢多人一起的氛围,而是越多人越不稳定,4人,5人的,一旦其中有个人要走,就需要发帖找人来住,这段时间的空窗期可能还要几个人均摊,麻烦。

    如果同样介意多人的,可以搜索「三*房」「四*房」「五*房」的数据,删除

    同理如果要只找一个人住的,仅筛选「大单间」「一*房」即可

    3. 价格限制

    3000以上的不考虑,同样删除

    4. 还有各种奇葩的限制,不过是少数

    限制微商/养宠物/做饭/健身/打机…,自己看情况删除

    2)定等级

    新建三列,「优先级」「价格」「备注」

    租房要考虑的无非以下几个信息

    · 离公司远近

    · 离男/女朋友住处远近

    · 周边环境

    · 价格

    · 房间大小

    · 房间设施

    一边看的时候,一般将觉得有戏的房子备注下,定个等级,产品经理的毛病来了:)

    · P0 最优

    · P1 次优

    · P2 备用

    · 不喜欢的,不需要给等级

    另外,推荐使用百度地图,因为上面的信息大量都是我不知道的地名,小区。

    所以我在看的时候,手机就放电脑旁,打开手机「百度地图」

    一边在浏览的时候,一边说

    ·「小度小度帮我查一下,xx在哪里」,看地点和周边环境,太远就Pass

    ·「小度小度,从xxx到公司坐公交」,看公交时间,太远Pass

    ·「小度小度,从xxx到公司坐地铁」,看地铁时间,太远Pass

    如果你还有男/女朋友

    ·「小度小度,从xxx到xxx坐公交」,看去男/女朋友那的时间,不要约次会搞得像异地恋一样是不是,太远就Pass啦

    「百度地图」的语音识别做的很棒,全程不需要再打字,效率贼高。

    3)按等级排序,开始联系

    数据筛选排序,从P0开始,点击末尾链接,到网页上看下有没有图片,有没有评论(有些评论会说已经租出)

    觉得OK的,从P0开始看到P2,加微信,或打电话联系,约看房。

    4)约定日期看房,看房看房,

    接下来就是纯体力活了,按照约好的时间,看房看房看房,一般工作日的晚上也是Ok的

    看完觉得不合适的,及时回复别人,同时友善的说下「微信互删了哈」,避免打扰。

    说一下我个人的经历,年后回来

    · 12号,周二,上午筛选信息,中午联系,最终筛选出了4个符合的P0房子,下午和晚上看房(晚上一般都在)

    · 13号,周三,又在网上看一遍,没有更满意的了,13号晚上签合同,交定金

    · 16号,周六,上午整理房间,下午叫货拉拉,搬完。

    另外,豆瓣也非常良心了推出了「豆瓣租房」小程序,也可以上去上面发布个人的房源和求租信息。

    以上,就是采集的教程啦,复习下,实际就三步

    1. 找到要采集的内容,分析路径

    2. 八爪鱼设定采集程序

    3. Excel处理数据

    学会了这招后,实际很多网站你都可以去爬了,比如,你哪天心血来潮,想去爬某榴的话。

    温馨提示


    注意有防爬措施

    各大网站一般都会有防爬措施,所以会导致爬到一半的时就会被限制IP访问。

    要解决这个问题,一来可以通过,八爪鱼采集器的特定配置解决(免费,但可能失效),二来可以购买他们的付费IP解决

    如果不知道怎么配置防爬的,搜索 关注 微信公众号 「朱利安笔记」 回复「八爪鱼」,获取教程~

    · 参考文章

    · 《链家发布“深圳租赁”报告,八成深圳人租房住》http://sz.southcn.com/content/2017-11/02/content_178543142.htm

    · 《《租房攻略2.0》新鲜出炉,带你开年租房轻松上分》https://mp.weixin.qq.com/s/sK2HrYi4wfQdkhRVkqwfuQ

    相关文章

      网友评论

        本文标题:工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?

        本文链接:https://www.haomeiwen.com/subject/zqhoyqtx.html