美文网首页
关于爬虫分页问题 - 自我总结

关于爬虫分页问题 - 自我总结

作者: dpkBat | 来源:发表于2017-05-27 15:08 被阅读0次

最近跟着老师学习,写了几个爬虫。写爬虫不可能只爬取一个页面,往往涉及到分页爬取。本文对自己在写爬虫的过程中关于分页爬取做一次小小的总结。

一、静态加载

糗事百科美股吧。这种网页url一般都带有页码信息,翻页的时候url会发生变化,页面内容全部刷新,分页爬取比较容易实现。

糗事百科
美股吧
  • 方法一: 取得页码总数,根据url的结构来构造一个url列表,然后遍历列表中的url分别爬取信息即可。参考代码(来自Python爬虫—糗事百科@loading_miracle)如下:
#总页码
    def totalUrl(self):
        urls = [self.url+'page/{}/?s=4985075'.format(i) for i in range(1,36)]
        for url in urls:
            print u'正在获取:'+url.split('/')[-2]+u'页'
            self.getInfo(url)
  • 获取页码数
    1. HTML页面中直接提取(页面中有最大页码数/共22页这些信息(如图图糗事百科、美股吧),或者提取``末页/>>`的标签的href属性(如BT蚂蚁))
      BT蚂蚁
      参考代码如下:
page_data = soup.find(name='span', class_='pagernums').get('data-pager').split('|')
page_nums = math.ceil(int(page_data[1]) / int(page_data[2]))
 2. 提取到返回信息的总数 / 每页显示的信息条数(如美股吧评论页)
美股吧评论页

参考代码如下:

# script脚本:{var num=40030; }var pinglun_num=105;var xgti="";if(typeof (count) != "undefined"){xgti="<span class=\"tc2\"><a href='list,meigu.html'>相关帖子<span class=\"tc1\">"+count+"</span>条</a></span>";}
# 正则表达式获取总的评论数
pattern = re.compile(r'var pinglun_num=(.*?);')
# 文章评论数
reply_count = int(re.search(pattern, resp.text).group(1))
page_num = math.ceil(reply_count / 30)
# 实现分页爬取(递归)
    next_page = soup.find(name='ul', class_='pagination').find_all(name='li')[-1]
    # 递归结束条件:没有找到下一页按钮表示到了最后一页,结束
    if next_page.find(name='span', class_='next'):
        next_page_url = 'http://www.qiushibaike.com' + next_page.find(name='a').get('href')
        parse_html(get_html(next_page_url))

二、异步加载

中国天气网简书

中国天气网 简书
  • 方法:通过Chrome浏览器的F12的XHR(或JS)检查发送的请求,根据请求的url找到url构造的规律构造一个url列表,遍历列表得到要爬取的信息。如中国天气网爬取一年的天气预报信息,参考代码(来自Python作业20170526:天气预报爬虫@dpkBat)如下:
# 根据年、月的信息生成url列表
def generate_url_list(start_date, end_date, city_id = 101300903):
    weather_url_list = []
    dates = []
    for year  in range(start_date.get('year'), end_date.get('year') + 1):
        if year == end_date.get('year'):
            for month in range(1, start_date.get('month') + 1):
                date = {
                    'year': str(year),
                    'month': str(month).zfill(2)
                }
                dates.append(date)
        else:
            for month in range(start_date.get('month'), 12 + 1):
                date = {
                    'year': str(year),
                    'month': str(month).zfill(2)
                }
                dates.append(date)
    for date in dates:
        weather_url_list.append(
            base_url.format(
                year=date.get('year'), date=date.get('year') + date.get('month'), city_id = city_id)
                )
    return weather_url_list

相关文章

网友评论

      本文标题:关于爬虫分页问题 - 自我总结

      本文链接:https://www.haomeiwen.com/subject/nmkqfxtx.html