美文网首页坚持写
一行正则抓取糗事百科

一行正则抓取糗事百科

作者: Wakingup88688 | 来源:发表于2017-03-21 14:21 被阅读0次

    糗事百科热门贴,算是我写的第一个爬虫。

    关键在于正则表达式,点击审查元素观察并构造即可。


    楼层数可设置循环,省去再匹配正则的麻烦。

    对多页的循环主要是处理url,可观察到第一页的url和之后的url是不一样的,分别进行讨论即可,注意各种参数的调用。

    最后面向对象设计,检查参数及代码优化。

    整个过程全部代码如下(包含测试):

    '''
    #usr/bin/env python
    #-- coding: utf-8 --

    import re
    import requests
    import time
    
    
    #定义一个Tool类,方便用replace方法把换行符等删除
    class Tool():
        def replace(self,x):
             x=re.sub(re.compile('<br>|</br>|/>|<br'),"",x)
            return x.strip()
    
    
    #定义一个Spider类
    class Spider(object):
        #初始化参数
        def __init__(self):
            self.siteURL ='http://www.qiushibaike.com/'
            self.tool=Tool()
    
        #获取网页源码
        def getSource(self,url):
            user_agent = 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
            headers = {'User_agent': user_agent}
            r=requests.get(url,headers=headers)
            result=r.text
            return result
    
        #获取详情页信息,并循环打印输出
        def getDetailPage(self,detailURL):
            source=self.getSource(detailURL)
            pattern=re.compile('<div class="author.*?<h2>(.*?)</h2>.*?Icon">(.*?)</div>.*?<div class="content">.*?<span>(.*?)</span>.*?<span.*?stats-vote.*?number">(.*?)</i>.*?stats-comments.*?number">(.*?)</i>.*?up.*?number hidden">(.*?)</span>.*?down.*?number hidden">(.*?)</span>',re.S)
            items=re.findall(pattern,source)
            number=1
            for item in items:
                print u''
                print number,u'楼',u'\n楼主:',item[0],u'',item[1],u'岁',u'\n发言:',self.tool.replace(item[2]),u'\n好笑:',item[3],u'\n评论:',item[4],u'\n赞:',item[5],u'\n踩:',item[6]
                time.sleep(0.1)
                number+=1
            return items
    
        #保存信息写入文件
        def saveDetailPage(self,data,name):
            fileName='page'+name+'.'+'txt'
            f=open(fileName,'wb')
            f.write(data.encode('utf-8'))
            print u'',u'成功将数据保存入文件',fileName
            f.close()
    
        #对一页的操作
        def OnePage(self,detailURL,name):
            data=self.getDetailPage(detailURL)
            self.saveDetailPage(str(data),str(name))
    
        #对很多页的操作
        #分两种情况讨论,start页等于1\start页大于1
        def getAllPage(self,start,end):
            if start==1:
                print u'正在获取第1页的数据...'
                detailURL=self.siteURL
                self.OnePage(detailURL,start)
                number=2
                for page in range(2, end+1):
                    print u'正在获取第', number, u'页的数据...'
                    detailURL = self.siteURL + '8hr/page/' + str(page) + '/?s=4964625'
                    self.OnePage(detailURL,number)
                    time.sleep(2)
                    number +=1
                if number==end+1:
                    print u'',u'\n加载结束!'
                    return False
    
            elif start>1:
                number=start
                for page in range(start,end+1):
                    print u'',u'\n正在获取第',number,u'页的数据...'
                    detailURL=self.siteURL + '8hr/page/' +str(page)+ '/?s=4964625'
                    self.OnePage(detailURL,number)
                    time.sleep(2)
                    number += 1
                if number==end+1:
                    print u'',u'加载结束!'
                    return False
    
    spider=Spider()
    spider.getAllPage(start=int(raw_input('请输入起始页数:')),end=int(raw_input('请输入结束页数))
    

    '''

    最后结果如下:
    起始页



    最后一页



    文件变化

    好了就是这样啦~
    详情也可见 我的csdn博客

    相关文章

      网友评论

        本文标题:一行正则抓取糗事百科

        本文链接:https://www.haomeiwen.com/subject/eqqgnttx.html