第三节:爬取小猪短租租房信息
要求:
1. 爬取详情页面内的:
标题,地址,租金,第一张房源图片链接,房东图片链接,房东姓名,房东性别。
2.爬取每页的所有租房详情信息:
总13页,共300条租房信息。
3.保存爬取的租房信息到文本文件中,如下
![](https://img.haomeiwen.com/i4131789/8c7406334eeb599b.png)
代码如下:
def get_html(url):
"""获得html源码"""
headers = {
'User-Agent':('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)'
'Chrome/54.0.2840.87 Safari/537.36')
}
response = requests.get(url,headers=headers)
response.encoding = 'utf-8' # 设置网页编码,responses会自动编码解码对网页,一般不需要设置编码,如出现乱码,则需要手动设置编码
return response.text # text返回响应的页面的源码,unicode编码格式,content 返回的是二进制响应内容的字符串
def is_sex(sex):
"""性别转换
性别女的 标签class属性 = member_girl_ico
性别男的 标签class属性 = member_boy_ico
class为空,则用户没有设置性别
返回用户性别字符串 男or女or未知性别
"""
lorder_sex = u'未知性别'
if sex: # 有些房东没有设置性别,所以需要先判断一下
if 'girl' in sex:
lorder_sex = u'女' # response.text返回的是unicode编码的字符串,所以编码要统一都设为unicode,避免乱码
elif 'boy' in sex:
lorder_sex = u'男'
return lorder_sex
def details_info(url):
"""获得租房页面详情信息,标题,地址,价格,房租第一张图片,房东照片,房东姓名,房东性别
返回储存详情信息的字典"""
html = get_html(url)
soup = BeautifulSoup(html, 'lxml')
#get('class')返回的是一个列表包含当前标签class属性的所有值,而不是字符串
lorder_sex_span = soup.select('div.w_240 > h6 > span')[0].get('class')[0]
address = soup.select('div.pho_info > p > span.pr5') #有些可能每没有地址
lorder_sex = is_sex(lorder_sex_span)
info = {
'title':soup.select('div.pho_info > h4 > em')[0].get_text(),
'address':address[0].get_text().strip() if address else '',
'pice':soup.select('div#pricePart div.day_l > span')[0].get_text(),
'home_img':soup.select('img#curBigImage')[0].get('src'),
'lorder_img':soup.select('div.member_pic > a > img')[0].get('src'), # 房东图片
'lorder_name':soup.select('div.w_240 > h6 > a.lorder_name')[0].get_text(),
'lorder_sex':lorder_sex
}
#跟踪输出每一页的url到控制台
print '正在爬取详情页为 ---- {}'.format(url)
return info
def home_sorce(url):
"""获得当前页面的所有房源链接
返回一个list"""
html = get_html(url)
soup = BeautifulSoup(html, 'lxml')
page_list = soup.select('div#page_list > ul > li > a')
#使用字典 url做key 去除重复href,字典是无序的,但url的顺序并不重要,所有用字典是比较合适的
page_url_dict = {page.get('href'):'' for page in page_list}
return page_url_dict
def save_to_text(datas):
"""将信息保存到当前文件夹内的文本文件中"""
with open('details.text','w') as f:
for data_dict in datas:
for key,value in data_dict.iteritems():
info = '{} -- {} \n'.format(key,value.encode('utf-8')) #以utf-8编码写入文本文件中
f.write(info)
f.write('\n')
f.write('------'*5)
f.write('\n\n')
def main():
"""主函数,启动爬虫"""
#拼接每一页的url
url_pattern = 'http://bj.xiaozhu.com/search-duanzufang-p{}-0/'
urls = [url_pattern.format(index) for index in range(1,14)]
page_url_dict = {} #使用字典 url做key 去除重复url,
for url in urls: #获得每页中的房屋信息url
page_url_dict.update(home_sorce(url))
print '总共 {} 条房源url'.format(len(page_url_dict))
#获得每个房屋的详情信息
details_list = [details_info(page_url) for page_url in page_url_dict.keys()]
print '总共 {} 条房源信息'.format(len(details_list))
save_to_text(details_list) #保存房源信息到文本文件
if __name__ == '__main__':
print '启动爬虫'
main()
网友评论