python爬取斗破苍穹小说

作者: rmbnet | 来源:发表于2017-03-14 16:11 被阅读137次

python爬取斗破苍穹小说
Python爬虫实战——爬取《斗破苍穹》全文小说（基于re模块）
怀旧篇学Python！你看过斗破苍穹嘛？今天来好好怀旧一下！
七. 正则实战 - 爬小说和段子
《斗破苍穹》我眼中的神剧
斗破苍穹：男人的柠檬精来了！天才少年萧炎的桃花缘究竟有多好？
2017-12-31
《斗破苍穹》为何恐怖如斯？
当看到青翼福王那一刻，我知道《斗破苍穹》住在萧炎体内的另一个灵魂
寒假来了，先订几个小目标

通过python批量自动化下载斗破苍穹小说

效果是这样的

效果展示1

效果展示2

我的代码

import re
import urllib.request
import time

url='http://www.liewen.cc/b/0/18/'
def get_list_link(url):
    web_open=urllib.request.urlopen(url)
    web_html=web_open.read().decode('gbk')
#     time.sleep(1)
    # print(web_html)
    reg=re.compile(r'<dd><a href="(.*?)">(.*?)</a></dd>')
    list_links=re.findall(reg,web_html)
#     print(list_links)
    num=0
    for link in list_links:
        full_link='http://www.liewen.cc'+link[0]
        title=link[1]
#         print(full_link,title)
        num=num+1
        filename='E:/novel/{}.{}.txt'.format(num,title)
        print('正在下载：%s,访问链接是：%s'% (title,full_link))
        with open(filename,'a') as f:
            f.write(title+'\n')
        get_detail_info(full_link,filename)
        #return full_link
def get_detail_info(url,filename):
    web_data=urllib.request.urlopen(url)
    web_html=web_data.read().decode('gbk')
    # print(web_html)
    reg=re.compile('<div id="content">    (.*?)</div>')
    detail_infos=re.findall(reg,web_html)
    if detail_infos:
        clean_infos=detail_infos[0].replace('<br /><br />    ','\n')
    #     print(clean_infos)
        with open(filename,'a') as F:
            F.write(clean_infos)


if __name__=='__main__':
    get_list_link(url)