美文网首页代码改变世界python小课——零基础入门——学习笔记
零基础小白学python之【贝壳房价爬取】(一)

零基础小白学python之【贝壳房价爬取】(一)

作者: python啵啵 | 来源:发表于2020-10-29 17:12 被阅读0次

    学习用python写爬虫有几天了,下面写一个小爬虫验证下学习成果吧。 本文适合小白食用,各位大佬您就图个乐~

    Tip:本文仅供学习与交流,切勿用于非法用途!!!

    一、网页分析

    爬取贝壳网石家庄二手房信息,先打开链接https://sjz.ke.com/ershoufang/。​

    如果大家在学习中遇到困难,想找一个python学习交流环境,可以加入我们的python圈,裙号930900780,可领取python学习资料,会节约很多时间,减少很多遇到的难题。

    不添加筛选条件,发现总共有42817套房子。我们点击第二页,再查看链接变成了https://sjz.ke.com/ershoufang/pg2/。所以,可发现/pg{i},i就是页码。经过体育老师教授的数学,数了一下,一页30个,最多可选100页。​所以最多可爬取3000套房产信息,距离上面给出的4万多差的还很远,于是尝试把pg{i}的那个i人为改变一下,点击回车请求一下。

    https://sjz.ke.com/ershoufang/pg200/

    https://sjz.ke.com/ershoufang/pg300/

    发现这两个请求,返回房产信息数据都一样。都是第100页的信息,于是乎,得出结论。通过贝壳网web端,查看某一条件下的房产信息,最多可以查看3000套。害,最多才能买3000套,有钱花不出去的感觉真难受啊~ 逃:)~~

    ​所以呢,我们增加一些条件,比如,满五唯一,2室的。请求之~​发现链接变成了https://sjz.ke.com/ershoufang/pg2mw1l2/。mw1l2这个玩意应该筛选条件。看到只有2399套,欧克,咱们就爬它了。

    二、撸起袖子写代码

    麻雀虽小五脏俱全,本爬虫设计三个部分,爬取,解析,储存。

    爬取

    爬取利用requests库,比python内置库urllib要好用很多。

    import requests

    def get_a_page(url):

        result = requests.get(url)

        print(result.text)

    if __name__ == '__main__':

        for i in range(1, 101):

            get_a_page(f'https://sjz.ke.com/ershoufang/pg{i}mw1l2/')

    复制代码

    for循环打印返回数据,发现没问题。其实i循环到81就好了,毕竟咱们知道了,只有不到2400套嘛。

    解析

    解析使用pyquery,这个库使用起来类似于Jquery。完整API,https://pythonhosted.org/pyquery/api.html。还有一个解析库`bs4,下次再尝试。

    发现读取如图所示ul里面一个div就可以拿到我们想要的数据。

    import requests

    from pyquery import PyQuery as pq

    import json

    def get_a_page(url):

        result = requests.get(url)

        doc = pq(result.text)

        ul = doc('.sellListContent')

        divs = ul.children('.clear .info.clear').items()

        for div in divs:

            count += 1

            title = div.children('.title a').text()

            place = div.children('.address .flood .positionInfo a').text()

            msg = div.children('.address .houseInfo').text()

            price = div.children('.address .priceInfo .totalPrice span').text()

            per_meter = div.children('.address .priceInfo .unitPrice').attr('data-price')

            dict = {

                'title': title,

                'place': place,

                'msg': msg,

                'price': price,

                'per_meter': per_meter

            }

            print(str(count) + ':' + json.dumps(dict, ensure_ascii=False))

    复制代码

    代码如上,pyquery 的children方法是查找子标签,find方法是找子孙标签,此处我们只需要找下一代就好。然后通过text找到标签所包含的文本。attr是获取属性内容的,因为那个per_meter从属性中获取比较简单,标签中的内容还包含了“元/平米”。

    储存

    本次我们直接储存到csv中,一种类似于excel的文件格式。利用的是pandas库。

    完整代码如下:

    import requests

    from pyquery import PyQuery as pq

    import json

    import pandas as pd

    columns = ['title', 'msg', 'price', 'per_meter']

    # 爬取某网页

    def get_a_page(url):

        result = requests.get(url)

        doc = pq(result.text)

        ul = doc('.sellListContent')

        divs = ul.children('.clear .info.clear').items()

        count = 0

        titles = []

        places = []

        msgs = []

        prices = []

        per_meters = []

        for div in divs:

            count += 1

            title = div.children('.title a').text()

            place = div.children('.address .flood .positionInfo a').text()

            msg = div.children('.address .houseInfo').text()

            price = div.children('.address .priceInfo .totalPrice span').text()

            per_meter = div.children('.address .priceInfo .unitPrice').attr('data-price')

            dict = {

                'title': title,

                'place': place,

                'msg': msg,

                'price': price,

                'per_meter': per_meter

            }

            titles.append(title)

            places.append(place)

            msgs.append(msg)

            prices.append(price)

            per_meters.append(per_meter)

            print(str(count) + ':' + json.dumps(dict, ensure_ascii=False))

        datas={

            'title': titles,

            'place': places,

            'msg': msgs,

            'price': prices,

            'per_meter': per_meters

        }

        df = pd.DataFrame(data=datas, columns=columns)

        df.to_csv('sjz.csv', mode='a', index=False, header=False)

    if __name__ == '__main__':

        for i in range(1, 101):

            get_a_page(f'https://sjz.ke.com/ershoufang/pg{i}mw1l2/')

    复制代码

    多进程

    由于get_a_page函数要运行100次,有点小慢,所以利用多进程加快速度,这部分代码,请直接copy。

    将主函数改成如下所示

    from multiprocessing.pool import Pool

    if __name__ == '__main__':

        pool = Pool(5)

        group = ([f'https://sjz.ke.com/ershoufang/pg{x}mw1l2/' for x in range(1, 101)])

        pool.map(get_a_page,group)

        pool.close()

        pool.join()

    复制代码

    三、结束

    查看下效果:

    ​效果还可以。有人会说,为什么不把msg信息拆分一下,分别储存楼层、几室几厅、建筑年代等等多好。刚开始,我是那么做的,结果发现这个msg数据那几项不是必填项,有的建筑年代、楼层什么的房主不填写,索性就整个拿过来了。

    小编的第一个爬虫就这样结束了。虽然简单,但是写完,还是有点小小的满足感。今后还会继续学习爬虫,写一些博客发出来。小伙伴们,点个赞再走嘛~

    最后多说一句,想学习Python可联系小编,这里有我自己整理的整套python学习资料和路线,想要这些资料的都可以进q裙930900780领取。

    本文章素材来源于网络,如有侵权请联系删除。

    相关文章

      网友评论

        本文标题:零基础小白学python之【贝壳房价爬取】(一)

        本文链接:https://www.haomeiwen.com/subject/gpskvktx.html