美文网首页
1_3抓取租房信息_笔记

1_3抓取租房信息_笔记

作者: 蜂DAO | 来源:发表于2016-11-26 12:56 被阅读0次

最终效果:

最终效果.png

我的代码:

from bs4 import BeautifulSoup
import requests
import time

urls = []
#抓取列表页中的内容页链接
#data:列表页链接
def conUrlFun(data):
    wb_data = requests.get(data)
    Soup = BeautifulSoup(wb_data.text,'lxml')
    conUrls= Soup.select('.pic_list > li > a.resule_img_a')

    for conUrl in conUrls:
        #将爬取到的链接存入urls列表中
        urls.append(conUrl.get('href'))

# 获取指定数量的列表页中内容页链接
# data1,data2:初始页至结束页
def urlFun(data1,data2):
    urls = ["http://bj.xiaozhu.com/search-duanzufang-p{}-0/".format(i) for i in range(data1, data2)]
    for url in urls:
        print(url)
        # 打印页面中的内容页链接
        conUrlFun(url)
    time.sleep(0.5)

# 获取内容页中的标题、地址、价格、图片、昵称、性别、头像
# data1:内容页链接
def conFun(data):
    wb_data = requests.get(data)
    Soup = BeautifulSoup(wb_data.text,'lxml')
    title = Soup.select('.pho_info > h4 > em')[0].get_text()
    addr = Soup.select('.pho_info > p > span')[0].get_text().strip()
    price = Soup.select('.day_l > span')[0].get_text()
    image = Soup.select('.pho_show_big > div > img')[0].get('src')
    avartar = Soup.select('.member_pic > a > img')[0].get('src')
    name = Soup.select('.lorder_name')[0].get_text()
    sexs = Soup.select('.member_pic > div')[0]['class'][0]
    #男 = member_ico  女 = member_ico1 无 = 空
    if sexs == str('member_ico'):
        sex = '男'
    elif sexs == str('member_ico1'):
        sex = '女'
    else:
        sex = '不明'

    datas = {
        "title":title,
        "addr":addr,
        "price":price,
        "image":image,
        "avartar":avartar,
        "name":name,
        "sex":sex
    }
    print(datas)

#conFun('http://bj.xiaozhu.com/fangzi/3795316730.html')
urlFun(1,3)
for url in urls:
    conFun(url)
    time.sleep(1)

学到的知识:

  • requests是python的一个HTTP客户端库,用于获取网页上的内容。常用请求方法有:get(),post()。同时requests还可以传递头部信息,获取状态码(status_code)等功能。

  • Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。本例中用到的方法有,css选择器:select();获取标签中的字符串:get_text();获取标签中的指定属性:get('属性名')。

  • 行内表达示:for i in range(1,14),循环生成1-13个数。

  • 清除字符串中的空格:.strip()

  • 判断表达式:if else 的使用

  • 定时函数:time.sleep, 需要用到time库

相关文章

  • 1_3抓取租房信息_笔记

    最终效果: 我的代码: 学到的知识: requests是python的一个HTTP客户端库,用于获取网页上的内容。...

  • Python3项目:练习爬取租房信息

    Python3项目:练习一爬取单一租房页面信息 -需要抓取的页面信息: -抓取页面:http://bj.xiaoz...

  • 江苏省58同城租房数据

    临近毕业,租房是少不了的,为了直观的了解江苏省的租房价格信息,这次就从58同城抓取了江苏省13个市的租房信息,进行...

  • Python爬取链家网上海市租房信息

    使用Python进行上海市租房信息爬取,通过requests + Beautifulsoup对网页内容进行抓取和数...

  • 北京租房情况分析

    北京租房信息数据分析马上就要毕业了,离家最近的就是北京了,所以,自己用八爪鱼抓取链家上北京最近一段时间的租房信息,...

  • Python实战计划爬虫作业1_3: 爬租房信息

    作业要求 我的代码 总结 本次作业就是BeautifulSoup的练习,模式就是一个套路。重点难点在于,页面上每一...

  • Python实战:抓取小猪短租租房信息

    最终成果: 我的代码: 总结: 1.获取标签信息的路径的方法,查看单个标签的唯一性路径 2.利用字符串的strip...

  • 租房信息

    其实方法很简单!!我这里有三个小妙招可以分享给各位同学们,保证你免受中介欺骗,保证你能租到心满意足的小房子!! 第...

  • 爬虫篇之--xpath

    在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,使用xpath对html进行分析,获取抓取的信息。...

  • 抓取信息

    现在社会信息量太大了,在哪里都能捕捉到想要的信息,大量的负面信息应接不暇每天被这些信息牵着着走,回想起以前没有手机...

网友评论

      本文标题:1_3抓取租房信息_笔记

      本文链接:https://www.haomeiwen.com/subject/bzxgpttx.html