美文网首页
Python实战计划学习笔记:week2_1 在MongoDB中

Python实战计划学习笔记:week2_1 在MongoDB中

作者: luckywoo | 来源:发表于2016-07-05 09:57 被阅读38次

    学习爬虫第二周,对Mongodb进行学习。

    代码如下:

    #!/usr/bin/env python
    # coding: utf-8
    __author__ = 'lucky'
    
    from bs4 import BeautifulSoup
    import requests
    import pymongo
    
    client = pymongo.MongoClient('localhost',27017)#激活本地数据库 port
    
    info_house = client['info_house'] #类似于excel的文件名
    sheet_tab = info_house['sheet_tab'] #类似于excel的文件名中的sheet表
    
    
    #每个链接打开后的信息
    def get_info(url):
        wb_data = requests.get(url)
        Soup = BeautifulSoup(wb_data.text,'lxml')
        titles =Soup.select('div.con_l > div.pho_info > h4 > em')
        rents = Soup.select('#pricePart > div.day_l > span')
        for title,rent in zip(titles,rents):
            data={
            "title":title.get_text(),
            "rent":int(rent.get_text()),  #取整数,方便数据库处理
            }
            sheet_tab.insert_one(data)  #写每行数据
    
    def get_links(one_url):
        wb_data = requests.get(one_url)
        Soup = BeautifulSoup(wb_data.text,'lxml')
        links = Soup.select('#page_list > ul > li > a')
        for link in links:
            href = link.get("href")
            get_info(href)
    
    url_links = ["http://bj.xiaozhu.com/search-duanzufang-p{}-0/".format(number) for number in range(1, 4)]
    
    for url in url_links:
        get_links(url)
    
    #find 查询数据库数据 和python字典用法很像
    # $lt/$lte/$gt/$gte/$ne 依次等于</<=/>/>=/!= (l:less,g:greater,e:equal,n:not)
    for item in sheet_tab.find({'rent':{'$gte':500}}):#
        print(item)
    

    运行效果:

    大于等于500的房屋信息.png

    数据库情况:

    database.png

    总结:

    • 复习了网页爬虫的相关知识。
    • 对数据库的操作和指令进行了学习,还需要继续练习。

    相关文章

      网友评论

          本文标题:Python实战计划学习笔记:week2_1 在MongoDB中

          本文链接:https://www.haomeiwen.com/subject/apshjttx.html