美文网首页
利用python抓取小说更新 (Pythonista pytho

利用python抓取小说更新 (Pythonista pytho

作者: dayan | 来源:发表于2016-12-15 23:11 被阅读0次

    本来是想做一个可以直接检测小说更新并下载下来推送到嵌入式打印机打印出来看的,由于没有太多时间,只是做了一个可以检测起点小说官网某个小说更新并且提供菠萝小说目录的脚本,等放了假再改下

    代码如下(python新人,有错请提出,有就改)

    ```

    # -*- coding: utf-8 -*-

    from __future__ import absolute_import

    from __future__ import print_function

    import urllib.request

    import re

    novel_scan = {#这个是起点的网站链接,用于第一时间检测更新

    "novel_1" : 'http://book.qidian.com/info/2750457',#大主宰

    "novel_2" : 'http://book.qidian.com/info/3542109',#茅山捉鬼人

    "novel_3" : 'http://book.qidian.com/info/3513193',#雪鹰领主

    "novel_4" : 'http://book.qidian.com/info/1931432',#校花的贴身高手

    "novel_5" : 'http://book.qidian.com/info/3601276'#最后一个摸金校尉

    }

    novel_link = {#这个是菠萝小说的小说目录页面,用于转到小说目录。感觉这个更新的比较及时。

    "novel_1" : 'http://m.boluoxs.com/1/1605_1_1/',#大主宰

    "novel_2" : 'http://m.boluoxs.com/10/10518_1_1/',#茅山捉鬼人

    "novel_3" : 'http://m.boluoxs.com/0/420_1_1/',#雪鹰领主

    "novel_4" : 'http://m.boluoxs.com/1/1519_1_1/',#校花的贴身高手

    "novel_5" : 'http://m.boluoxs.com/10/10915_1_1/'#最后一个摸金校尉

    }

    novel_print = {#小说名称,用作输出时标志小说

    "novel_1" : '大主宰最新章节',

    "novel_2" : '茅山捉鬼人最新章节',

    "novel_3" : '雪鹰领主最新章节',

    "novel_4" : '校花的贴身高手最新章节',

    "novel_5" : '最后一个摸金校尉最新章节'

    }

    novel_txt ={#临时存放小说名称,以后改成小说文本

    "novel_1" : '',

    "novel_2" : '',

    "novel_3" : '',

    "novel_4" : '',

    "novel_5" : ''

    }

    for time in novel_scan:

    response=urllib.request.urlopen(novel_scan[time])

    html=response.read()

    text=str(html,'utf-8')

    new=re.findall(r'''第.*?(?=" target="_blank">)''', text)

    new_str=str(new)

    novel_txt[time]=new_str[2:len(new_str)-2]

    print(novel_print[time]+"\n\n\t\t"+novel_txt[time]+"\n\n\t\t"+novel_link[time]+"\n")

    ```

    图一是运行后的结果,通过点击链接可以直接转到相应小说的目录 图二是利用pythonista制作的一个图标,可以一键启动脚本(左下角小说更新)

    未完待续,先起个头

    相关文章

      网友评论

          本文标题:利用python抓取小说更新 (Pythonista pytho

          本文链接:https://www.haomeiwen.com/subject/tzogmttx.html