美文网首页大数据 爬虫Python AI SqlPython小哥哥
Python大佬手把手教你如何自制小说下载器 !

Python大佬手把手教你如何自制小说下载器 !

作者: 14e61d025165 | 来源:发表于2019-03-24 16:05 被阅读1次

    今天说的这个小说下载器是之前一个小姐姐要我帮她做的,感觉还不错,就来做个demo。(本文使用python2.7)

    这个网站(https://www.po18.tw/site/alarm)必须要先登录才能进行搜索与小说的阅读,所以第一步就是模拟登录(https://members.po18.tw/apps/login.php)。完整代码加群:683380553 获取!

    image

    它的密码部分是没有加密的,属于最简单的登录,而且没有验证码,非常的贴心~~~比较适合模拟登录入门训练。

    image

    进行小说的搜索和阅读时,需要有登录信息,所以要用requests.session()保持对话。当登录成功时,url会变成网站的主页面(https://www.po18.tw);反之登录失败的话url会返回网站的登录页(https://members.po18.tw/apps/login.php)。请求时设置了响应时间,self.wait_time,当请求超时或ConnectionError时,重新登录,直到登录成功。

    def login(self):
    

    提示登录成功后,就可以进行小说的搜索(以关键词:迟早为例)。

    image

    在搜索页面输入的关键词有三种类型,分别为全部/作家/书籍:映射关系如下:

    <pre style="background-color: rgb(43, 43, 43);color: rgb(169, 183, 198);font-family: Menlo;font-size: 9pt;">search_type = {
    '全部': 'all',
    '作家': 'author',
    '书籍': 'book' }</pre>

    仅搜索作者时,searchtype==‘author’;仅搜索相关书籍时,searchtype==‘book’;两者都要时,searchtype==‘all’。这里默认为all。

    image

    输入关键词(迟早)后,会有两组结果:

    关于作者部分,有显示作家笔名,以及简介。为了获得该作者的系列小说,需要进入作者主页查看。

    image
    try:
    

    进入作者页面后,可以看到该作者的系列小说,我们需要返回书名以及该书的简介:

    image
      def get_author_book(self,author_name,author_url):
    

    最后返回的结果如下:

    image

    关于书籍部分,就要比作者部分简单很多,只需要定位得到每本书籍的链接;书名以及简介,就可以print跟关键词相关的所有书籍及其简介。

    image
    try:
    

    最后返回一个字典:{书名:链接}。方便下一步选择小说进行下载。

    但是存在两种特殊情况:第一种是输入的关键词既搜不到作者,也搜不到相关书籍;此时需要重新输入关键词。

    效果如下:

    请输入关键字:python
    

    第二种是关于关键词的返回结果非常多,这里设置仅返回前两页的内容,设置一个search_page为当前页面数;

    total_page=2
    

    最后return回一个字典类参数,key是书本名,value是改书本的url。比如输入关键词(迟早)后返回于迟早相关的所有书籍名和其相应的书籍链接;以及相关作者的所有系列书籍和链接:

    {u'宿命': 'https://www.po18.tw/books/527881/articles', u'快穿之为入穹顶': 'https://www.po18.tw/books/558233/articles', u'xx要趁早': 'https://www.po18.tw/books/538222/articles', u'罂粟(NPH)': 'https://www.po18.tw/books/665523/articles', u'莲花梦迟': 'https://www.po18.tw/books/203355/articles', u'(女变男)快穿渣男的死亡姿势': 'https://www.po18.tw/books/639590/articles', u'天作之合【高H,简】': 'https://www.po18.tw/books/585425/articles', u'迟到的爱情': 'https://www.po18.tw/books/567516/articles', u'黎明向晚': 'https://www.po18.tw/books/657155/articles', u'[快穿]系统,这锅我不背!': 'https://www.po18.tw/books/642849/articles', u'快穿之精液收集系统': 'https://www.po18.tw/books/621188/articles', u'离歌不散(H 简繁)': 'https://www.po18.tw/books/640195/articles', u'还债(1V1/H)': 'https://www.po18.tw/books/673401/articles', u'报应': 'https://www.po18.tw/books/646584/articles', u'快穿游戏用性来拯救低欲望': 'https://www.po18.tw/books/658652/articles', u'迟早(限)': 'https://www.po18.tw/books/666331/articles', u'迟暮央央': 'https://www.po18.tw/books/571399/articles', u'影后媳妇养成记gl(NP)': 'https://www.po18.tw/books/552827/articles', u'他的小阴谋家': 'https://www.po18.tw/books/671472/articles', u'迟暮西沉【H】': 'https://www.po18.tw/books/664991/articles', u'女王陛下今天技术好一点了吗': 'https://www.po18.tw/books/667909/articles', u'黑皇后(H)': 'https://www.po18.tw/books/557724/articles', u'蓮花夢遲【繁】': 'https://www.po18.tw/books/570932/articles', u'我知道你迟早是我的(h)': 'https://www.po18.tw/books/670242/articles', u'柠.迟': 'https://www.po18.tw/books/614132/articles', u'【短篇rou】阿萌和爷爷的爱爱': 'https://www.po18.tw/books/656135/articles', u'[ow同人]肥水不流外人田': 'https://www.po18.tw/books/667808/articles', u'询迟': 'https://www.po18.tw/books/670528/articles', u'(西幻)干掉勇者的一百种方法': 'https://www.po18.tw/books/668725/articles', u'意何迟迟': 'https://www.po18.tw/books/658095/articles', u'【快穿】情不自矜': 'https://www.po18.tw/books/570989/articles'}
    

    现在就可以下载你想要下载的书籍啦,这里选(迟到的爱情)这本书。

    image

    有时候我们并不想从头开始下载,所以在下载前设定一个起始章节:当输入all时,表示下载全部章节;当输入5时,代表从0005章节开始下载,page为1;当输入100时,代表从0100章节开始下载,page为1。

    def pages_cha(self):
    

    效果如下:

    image

    当你输入的章节序号大于小说的章节序号时,会提示你一共多少章,并要求重新输入章节序号。

    image

    输入关键词以后就开始下载小说了,这个网页的小说章节有三种情况:第一种是不要钱就可以看的免费章节,它的Botton是蓝色的’免費閱讀‘;第二种是已经购买的章节,它的Botton是蓝色的‘閱讀’;第三种是付费为购买的章节,它的Botton是红色的;所以根据class_='btn_L_blue'或者class_='btn_L_red'来判断该章节能否下载。如果该章节可以被下载,在<a>标签内有这一章节的url。

    image

    将获得的url在新窗口打开,虽然可以看到小说的内容,但是却无法选中,因为小说的内容根本就不在这个网页的源代码中。

    image

    全局搜索后发现在另外一个类似的网页中:

    image

    想要获得这个网页的内容有两个非常重要的request headers。一个是referer必须是该章节小说的url,(必须保持一致,否则无法获得内容);另外一个是cookie;比如判断该收费章节能否下载就是通过cookie。

    image

    在下载中发现,每次下载都只能下载部分章节,有一些章节会返回空值,所以加入一个全局变量nu=10:若该章节返回空值,则一直发送请求,直至获得章节内容,这个操作超过10次的话就放弃下载该章节的内容;经测试当nu为10时所有可下载的章节内容都可以成功获得。

    def chapter_content(self,chapterurl,title,type,nu):
    

    下载完一章就会print 下载完毕;如果某一章一直返回空值,则会显示:'---error---,%s开始第%d次下载'。

    image

    下载完以后就可以在本地看啦。

    image

    在下载完一本后,你可以选择是否要继续下载,如果希望继续搜索则输入1;否则输入0。停止搜索:

    image

    继续搜索:

    image

    到这就全部说完啦,小伙伴是不是迫不及待的想去做一个属于自己的小说下载器呢~~~

    相关文章

      网友评论

        本文标题:Python大佬手把手教你如何自制小说下载器 !

        本文链接:https://www.haomeiwen.com/subject/hcpuvqtx.html