爬取链家租房信息

作者: 王小坤_GO | 来源:发表于2016-11-19 16:35 被阅读0次

做一个爬取房源的爬虫
爬取链家租房信息
爬一爬链家网北京租房数据
pyecharts展示无锡租房信息
scrapy 爬取链家北京租房信息
爬取租房信息
Python进阶实战爬虫：对于房天下租房信息进行爬取
【爬虫】-005-MongoDB数据库操作-练习
python爬取租房信息
Python爬虫实战之爬取链家广州房价_01简单的单页爬虫

frombs4importBeautifulSoup

importrequests

#准备网络连接

#pc端

urls=['http://bj.lianjia.com/zufang/pg{}/'.format(str(i))foriinrange(1,101)]

#手机端

murls=['http://m.lianjia.com/bj/zufang/pg{}'.format(str(i))foriinrange(1,101)]

#爬取PC端的数据

defpachongpc(url):

web_date = requests.get(url)

web_date.encoding ='utf-8'

soup = BeautifulSoup(web_date.text,'lxml')

names = soup.select('#house-lst > li > div.info-panel > h2 > a')

adrs = soup.select('#house-lst > li > div.info-panel > div.col-1 > div.where > a > span')

styles = soup.select('#house-lst > li > div.info-panel > div.col-1 > div.where > span.zone > span')

areas = soup.select('#house-lst > li > div.info-panel > div.col-1 > div.where > span.meters')

prices = soup.select('#house-lst > li > div.info-panel > div.col-3 > div.price > span')

times = soup.select('#house-lst > li > div.info-panel > div.col-3 > div.price-pre')

imgs = soup.select('#house-lst > li > div.pic-panel > a > img')

data = []

# print(len(names),len(adrs),len(styles),len(areas),len(prices),len(times),len(imgs))

forname, adr, style, area, price, time, imginzip(names, adrs, styles, areas, prices, times, imgs):

info = {

#'name': name.get_text().replace(u'\xa0\xa0', u'').split(' ')[0],

'adr': adr.get_text().replace(u'\xa0\xa0',u''),

'style': style.get_text().replace(u'\xa0\xa0',u''),

'area': area.get_text().replace(u'\xa0\xa0',u''),

'price': price.get_text().replace(u'\xa0\xa0',u''),

'time': time.get_text().replace(u'\xa0\xa0',u''),

'img': img.get('src').replace(u'\xa0\xa0',u'')

}

data.append(info)

print(data)

#爬取mobile端的数据

defpachongmo(url):

web_date = requests.get(url)

web_date.encoding ='utf-8'

soup = BeautifulSoup(web_date.text,'lxml')

names = soup.select('section.page.page_zufang > div > div.mod_box.house_lists > div.mod_cont > ul > li > div > div.item_list > div.item_main.text_cut')

adrs = soup.select(' section.page.page_zufang > div > div.mod_box.house_lists > div.mod_cont > ul > li > div > div.item_list > div.item_other')

styles = soup.select(' section.page.page_zufang > div > div.mod_box.house_lists > div.mod_cont > ul > li > div > div.item_list > div.item_minor > div.info')

prices = soup.select('div > div.mod_box.house_lists > div.mod_cont > ul > li > div > div.item_list > div.item_minor > div.price_total.q_rentprice')

cate = soup.select('section.page.page_zufang > div > div.mod_box.house_lists > div.mod_cont > ul > li > div > div.item_list > div.tag_box')

imgs = soup.select('section.page.page_zufang > div > div.mod_box.house_lists > div.mod_cont > ul > li > div > div.mod_media > div > img')

data = []

# print(len(names),len(adrs),len(styles),len(areas),len(prices),len(times),len(imgs))

forname, adr, style, price, cate, imginzip(names, adrs, styles, prices, cate, imgs):

info = {

#'name': name.get_text().replace(u'\xa0\xa0', u'').split(' ')[0],

'adr': adr.get_text().replace(u'\xa0\xa0',u''),

'style': style.get_text().replace(u'\xa0\xa0',u''),

'price': price.get_text().replace(u'\xa0\xa0',u''),

'cate':list(cate.stripped_strings),

'img': img.get('src').replace(u'\xa0\xa0',u'')

}

data.append(info)

print(data)

if__name__ =="__main__":

forurlinurls:

pachongpc(url)

formurlinmurls:

pachongmo(murl)

注：可以使用标签加方括号的方式来定位到某一个特定的标签‘div>div.property_title>a[target='_blank']’

网友评论

本文标题：爬取链家租房信息

本文链接：https://www.haomeiwen.com/subject/ufkepttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬取链家租房信息

相关文章

做一个爬取房源的爬虫