美文网首页
作业提交方式

作业提交方式

作者: ASulee | 来源:发表于2016-05-07 15:16 被阅读31次

    测试1-2 抓取300个房租信息

    from bs4 import BeautifulSoup
    import requests 
    import time
    # 单页方法:
    url = 'http://wh.xiaozhu.com/fangzi/1947701970.html'
    wd_data = requests.get(url)
    soup = BeautifulSoup(wd_data.text, 'lxml')
    def fd_sex(class):    
            if class_name == 'member_ico1':        
                    return '男'   
             else:        
                    return '女'
    data = {   
    'title': soup.select('h4 em')[0].text,                                                                                  
    'addres': soup.select('span.pr5')[0].text.strip().split(' ')[0], 
    'day_prices': int(soup.select('div.day_l span')[0].text),    
    'imgs': (soup.select('img#curBigImage')[0].get('src')),    
    'fd_imgs': soup.select('div.member_pic a img')[0].get('src'),   
    'fd_name': soup.select('a.lorder_name')[0].get('title'),   
    'fd_sex': fd_sex(soup.select('div.member_ico1')[0].get('class'))
    }
    
    
    
    # 多页方法
    page_link = []
    def list_xiaozu_url(pages):
            page_link.clear()    
            for each_number in range(1, pages):        
                    xiaozu_url = 'http://wh.xiaozhu.com/search-duanzufang-p{}-0/'.format(each_number)
                    time.sleep(4)      
                    wd_data = requests.get(xiaozu_url)        
                    soup = BeautifulSoup(wd_data.text, 'lxml')        
                    for link in soup.select('a.resule_img_a'):            
                            url_list = link.get('href')            
                            page_link.append(url_list)        
                    print(page_link)
    
    list_xiaozu_url(13)
    
    
    • 第一件事
      抓取300个出租连接(完成)

    • 第二件事
      写需要抓取信息的代码 并防止反扒 抓取信息工整(未完成)

    • 第三件事
      统计数据

    相关文章

      网友评论

          本文标题:作业提交方式

          本文链接:https://www.haomeiwen.com/subject/pbmjrttx.html