python小说爬虫

作者: Jyougen | 来源:发表于2018-05-27 18:53 被阅读54次

python 爬虫 --- 爬取笔趣阁小说
2017-12-31
python 爬虫练习（一）
3分钟带你了解世界第一语言Python 入门上手也这么简单！
5.3黑客成长日记——爬虫篇(1)
python各类爬虫案例，爬到你手软！（附代码）
python小说爬虫
小说爬虫python
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
Python网络爬虫（七）- 深度爬虫CrawlSpider

稍微看了点python，写一写练下手

首先看一下我们要爬的小说的url, 风大的新书
http://www.biquge.com.tw/16_16209/

导入request_html库

from requests_html import HTMLSession

先获取下这个网页的html

def initData (url):
    try:
        if url is None:
            return
        session = HTMLSession()
        content = session.get(url)
        html = content.html
        return html
    except :
        return

先看一下网页源码

层级大概是wrapper-> div.box_con-> list->dd
list标签中就是这本书的目录列表了

目录标签中的内容

然后我们就要遍历目录, 取得整个目录下dd标签中对应章节的url:

def getData (html):
    dic = {}
    content = html.find('#wrapper')[0].find('div.box_con')[1].find('#list')[0].find('dd')   //取得目录
    for list in content :
        dic["name"] = list.text
        dic["url"] = list.find('a')[0].attrs["href"]  //从href中提取章节url
        getBookHtml(dic)

这样我们就取到了对应章节的url

然后看一下获取到的url, 就是章节正文了

可以看到网页中小说正文每一行对应content下br标签中的内容
那我们再把content下所有br标签的内容提取出来

def getBookContent (html):
    print(html)
    dic = {}
    content = html.find('#content', first=True).find('br')

    for line in content :
        dic["line"] = line.text
        print(dic)
        writeToFile(line.text)

然后把这些内容写入到txt:

def writeToFile (text):
    result = text
    f = open('我是至尊.txt', 'a', encoding='utf-8')
    # f.write(chapter[i] + "\n")
    f.write(text + "\n")
    f.close()

这样整个爬虫就完成了
整体逻辑就是遍历目录->获取目录下对应章节的url->获取小说正文每一行的内容->写入本地

贴出来代码

from requests_html import HTMLSession

url = "http://www.biquge.com.tw/16_16209/"
host = "http://www.biquge.com.tw"

def initData (url):
    try:
        if url is None:
            return
        session = HTMLSession()
        content = session.get(url)
        html = content.html
        return html
    except :
        return

def getData (html):
    dic = {}
    content = html.find('#wrapper')[0].find('div.box_con')[1].find('#list')[0].find('dd')
    for list in content :
        dic["name"] = list.text
        dic["url"] = list.find('a')[0].attrs["href"]
        # print(dic)
        getBookHtml(dic)

def getBookHtml (dic):
    url = dic["url"]
    session = HTMLSession()
    content = session.get(host+url)
    html = content.html
    getBookContent(html)

def getBookContent (html):
    print(html)
    dic = {}
    content = html.find('#content', first=True).find('br')

    for line in content :
        dic["line"] = line.text
        print(dic)
        writeToFile(line.text)


def  start ():
    html = initData(url)
    getData(html)

def writeToFile (text):
    result = text
    f = open('我是至尊.txt', 'a', encoding='utf-8')
    # f.write(chapter[i] + "\n")
    f.write(text + "\n")
    f.close()

start()