美文网首页
爬取百度某贴吧的精品贴

爬取百度某贴吧的精品贴

作者: 小温侯 | 来源:发表于2018-07-21 00:12 被阅读219次

    思路

    说实话,我一直都不喜欢贴吧,觉得鱼龙混杂。不过经过这次的抓取,我对它改观了不少,至少精品帖子还有一些值得一看的内容。

    百度贴吧只是一些静态网页,我承认我是反复确认了很久才下这个结论的。静态网页的抓取很简单无非就是正则、css选择器、xpath选择器或bs4。

    这里唯一一个注意点就是,在抓取请求索引页时返回的内容时,不知道为什么,描述帖子信息的HTML代码是被注释掉的,但实际上也确实出现在了网页里,我没追究其原理,这也是为什么我是用正则表达式抓取帖子ID的原因,bs4解析不出来。

    我的代码爬取了复仇者联盟吧里所有的精品贴,URL是http://tieba.baidu.com/f?kw=复仇者联盟&ie=utf-8&tab=good&cid=0&pn=0,其中参数ie是编码,tab=good表示精品,album表示图片,video表示视频等等,cid不是必须的,pn是page number,一次加50。在页面下方,有一段文字可以用来获取精品贴的总数,这里是522个,因此pn的值就是0,50,100,...,400,450,500。然后依次解析每个页面中的每个帖子,分别获取每个贴子的ID。

    贴子的URL是http://tieba.baidu.com/p/4567733972?see_lz=1&pn=2,其中4567733972是贴子的ID,see_lz是标识是否只看楼主,pn是页数,不过这次迭加值是1,同样在页面的下面有一段文字可以获取页面的总页数。另外,我也会抓取贴子的作者,作者的头像和帖子的名称,最后保存到4567733972.txt里,数字是贴子的ID。

    还有几个小问题:

    • 有的帖子的楼层内容会包含编码为unicode的文字,写入文件时要先处理一下。
    • 有的帖子会被删除,但是它的请求的返回码仍然是200,只不过返回的是贴吧404需要额外判断一下。

    题外话-性能

    这个程序是单线程的,可以看的出来,它的效率很低,522个精品贴爬了一个多小时,准确的说,76分钟。

    提升效率的方法无非就是多线程,异步,分布式,之后我会逐渐添加进来。当然优化代码也是不可缺少的一部分。

    代码

    有这个逻辑代码就很简单了,这里我用了三个函数,第一个用来获取索引页下精品贴的数量,第二个函数用来抓取所有精品贴的ID,第三个函数则是根据这个ID获取这个帖子所有的内容。其中,前两个使用正则过滤内容,第三个使用了BS4过滤。我只是熟练一下各种库的用法。

    另外,关于贴吧里的图片,我这里只是把图片的路径都保存了下来,如果要进一步下载图片,主需要抓取文件里的http://(.*?).jpg并下载就行了。

    不过代码虽然简单,差不多也用了我将近7个小时。

    tieba.py

    configure.py请参考拙作:爬取糗事百科的内容和图片并展示

    import requests
    import re
    import json
    import time
    from random import choice
    from bs4 import BeautifulSoup
    import Configure
    
    header = {'user-agent': choice(Configure.FakeUserAgents)}
    
    cookies = {}
    cookiestr = '''
                BAIDUID=42F6DD1CC8665CEF88C2A26C1F0F504C:FG=1; 
                BIDUPSID=42F6DD1CC8665CEF88C2A26C1F0F504C; 
                PSTM=1524011246; TIEBA_USERTYPE=18f315073eddae18a6dfa5f6; 
                bdshare_firstime=1524016473188; 
                Hm_lvt_287705c8d9e2073d13275b18dbd746dc=1524016474,1524173313,1524593010; 
                FP_UID=2143bdc5c13bdcf8b476c96453c42b93; 
                pgv_pvi=7109722112; 
                BDUSS=1lzbm12RGVHOTF5emNMOVRTVnY1VHlydlNUR0QtS29hZ0h0S0RhY1dhaFNhQTliQVFBQUFBJCQAAAAAAAAAAAEA
                    AABo44AfWmlvbjEyMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
                    AAAAFLb51pS2-daY; 
                cflag=15%3A3; 
                TIEBAUID=08df9b3ba5f5e5335cf67ff4; 
                STOKEN=a97aaf8a8e0724638e351933aaeed3bd4edf2dad29bc8f83a88e94b4738958ee; 
                wise_device=0; 
                Hm_lvt_98b9d8c2fd6608d564bf2ac2ae642948=1525205956,1525334517,1525371306,1525372116; 
                528540520_FRSVideoUploadTip=1; 
                Hm_lpvt_98b9d8c2fd6608d564bf2ac2ae642948=1525372413
                '''
    
    for cookie in cookiestr.split(';'):
        name,value=cookie.strip().split('=',1)  
        cookies[name]=value
    
    # 获取精品帖子的页数
    def getGoodCount():
        url = "http://tieba.baidu.com/f"
        payload = {
            'kw':'复仇者联盟',
            'ie':'utf-8',
            'tab':'good'
        }
        try:
            response = requests.get(url, headers=header, params=payload, cookies=cookies)
            content = None
    
            if response.status_code == requests.codes.ok:
                content = response.text
                
        except Exception as e:
                print (e)
    
        pattern_next = re.compile('共有精品数.*?(\d+).*?个', re.S)
        data = pattern_next.findall(content)
    
        return (int(data[0]))
    
    # 获取每页中帖子的ID
    def getOnePageList(pn):
        url = "http://tieba.baidu.com/f"
        payload = {
            'kw':'复仇者联盟',
            'ie':'utf-8',
            'tab':'good',
            'pn':pn
        }
        try:
            response = requests.get(url, headers=header, params=payload, cookies=cookies)
            content = None
    
            if response.status_code == requests.codes.ok:
                content = response.text
                
        except Exception as e:
                print (e)
    
        pattern = re.compile('/p/(\d+)', re.S)
        data = pattern.findall(content)
    
        return data
    
    # 获取每个帖子的内容,只看楼主
    def getDetail(tid):
        url = "http://tieba.baidu.com/p/{0:s}".format(tid)
        payload = {
            'see_lz':1
        }
        try:
            response = requests.get(url, headers=header, params=payload, cookies=cookies)
            content = None
    
            if response.status_code == requests.codes.ok:
                content = response.text
            else:
                return
                
        except Exception as e:
            print (e)
    
        soup = BeautifulSoup(content,'lxml')
    
        # 帖子不存在,但是请求的返回码是200
        print ("标题:" + soup.head.title.text)
        if soup.head.title.text == '贴吧404':
            print ("跳过。")
            return
    
        file = open("Download/{0:s}.txt".format(tid),'w',encoding = 'utf-8')
        
        file.write("Title: "+ soup.head.title.text + "\n")
    
        author = soup.find_all('div', class_='d_author')
        file.write("Author: " + author[0].img.get('username') + "\n")
        file.write("Avatar: " + author[0].img.get('src') + "\n")
        file.write("\n")
    
        # 获得页数
        pageCnt = soup.find('div', class_='pb_footer').find_all('span', class_='red')[1].text
    
        # 开始抓取所有的页数
        for i in range(1,int(pageCnt)+1):
            payload = {
                'see_lz':1,
                'pn':i
            }
    
            try:
                response = requests.get(url, headers=header, params=payload, cookies=cookies)
                content = None
    
                if response.status_code == requests.codes.ok:
                    content = response.text
                
            except Exception as e:
                print (e)
                continue
    
            soup = BeautifulSoup(content,'lxml')
            details = soup.find_all('cc')
    
            for detail in details:
                file.write(detail.text.strip() + "\n")
    
                imgs = detail.find_all('img')
                if imgs:
                    for img in imgs:
                        file.write(img.get('src') + "\n")
    
                file.write("\n")
    
            time.sleep(0.25)
    
        file.close()
        print ("创建 {0:s}.txt 成功。".format(tid))
    
    
    if __name__ == '__main__':
        cnt = getGoodCount()
    
        tidlist = []
        for i in range(0, cnt,50):
            tidlist += getOnePageList(i)
            time.sleep(0.25)
    
        print ("抓取到{0:d}个帖子。".format(len(tidlist)))
    
        for tid in tidlist:
            getDetail(tid)
    
    

    相关文章

      网友评论

          本文标题:爬取百度某贴吧的精品贴

          本文链接:https://www.haomeiwen.com/subject/ceycmftx.html