美文网首页
第一周第三课时

第一周第三课时

作者: 采矿 | 来源:发表于2016-05-21 17:38 被阅读21次
抓取的详情页链接 详情页的详细信息
from bs4 import BeautifulSoup
import requests
import time
sourceurls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(str(i)) for i in range(1, 14)]
detail_urls = []
detailku = []


def get_detail_url(urls):
    web_data = requests.get(urls)
    time.sleep(2)
    soup = BeautifulSoup(web_data.text, 'lxml')
    for url in soup.select('#page_list > ul > li > a'):
        detail_url = url.get('href')
        detail_urls.append(detail_url)
    print(detail_urls, len(detail_urls))
# sourceurls 是一个列表,所以还需要一个个的取出来放到函数里
for single_url in sourceurls:
    get_detail_url(single_url)


def get_dtail_info(url):
    web_data = requests.get(url)
    time.sleep(1)
    soup = BeautifulSoup(web_data.text, 'lxml')
    titles = soup.select('h4 > em')
    areas = soup.select('span.pr5')
    day_prices = soup.select('div.day_l > span')
    house_pics = soup.select('#curBigImage')
    landlord_pics = soup.select('div.member_pic > a > img')
    if soup.find_all('div', 'member_ico'):
        landlord_genders = '男'
    else:
        landlord_genders = '女'
    landlord_names = soup.select('a.lorder_name')
    for title, area, day_price, house_pic, landlord_pic, landlord_gender, landlord_name in zip(titles, areas, day_prices,
                                                                                               house_pics, landlord_pics,
                                                                                               landlord_genders,
                                                                                               landlord_names):
        data = {
            'title': title.get_text(),
            'area': area.get_text(),
            'day_price': day_price.get_text(),
            'house_pic': house_pic.get('src'),
            'landlord_pic':landlord_pic.get('src'),
            'landlord_gender': landlord_gender,
            'landlord_name': landlord_name.get_text()
        }
        detailku.append(data)
        print(data, len(detailku))
for detail_sinngle_url in detail_urls:
        get_dtail_info(detail_sinngle_url)

相关文章

  • 第一周第三课时

  • 攀登语文教研的高峰

    九上第三单元起始课(三课时) 一二课时自学,第三课时群学 一、自学检测 大老虎 小老虎 开火车说词义 二、课后习题...

  • 3F【意识日记】第16周3-1

    事实:这几天在外地开课时间比较紧,所以今天在高铁上听了好几周的意识日记录音!特别是第一周无意识反应、第三周无抵抗状...

  • 『习·思』习课堂实践第一周总结

    开学第一周,完成了一课半,《古诗三首》三课时,《燕子》第一课时,每课时当堂完成任务单后,每天都要拿出一节语文进行讲...

  • 天善磨剑之作,七周成为数据分析师 秦路主讲

    章节1: 如何七周成为数据分析师 课时1:为什么需要七周 课时2:七周应该怎么学 章节2: 第一周:数据分析思维 ...

  • 周总结

    在一片忙乱中结束了,开学第一周。第一周教学课时工作量并不大,教学任务也不是很繁重。但是开学的其他事务特别多嗯,各种...

  • 雅宸班2012年第三周

    第一周网课结束了,感觉一个字:累。 虽然网课时长没有线下课时长,但是每天上完课都感觉好疲惫。看来和孩子们面...

  • 课时八(第三天)

    翻译p126对话并解释

  • 课时七(第三天)

    翻译p81前文: 昨天是星期天,天气非常好。那样极好的天气实在是很少见。留学生木村先生和日本语学科的小吕一起乘坐地...

  • 课时五(第三天)

    整理语法。 1、 “什么是什么”类,此类不用分有无生命: (1) …は(wa)… です。 什么是什么。 (2) ...

网友评论

      本文标题:第一周第三课时

      本文链接:https://www.haomeiwen.com/subject/hbhorttx.html