Python 学习笔记 094

作者: 夜羽萧轩 | 来源:发表于2020-01-25 18:45 被阅读0次

    本周学习内容 07 


    本次分享主题  

    自动爬取网页内容并保存为TXT 06


    自动爬取小说

    1.简单逻辑

    1.1请求网页数据

    1.2 Xpath提取章节内容相对地址&章节名

    1.3 循环逐章处理数据

    1.3.1 拼接章节绝对地址

    1.3.2 Xpath得到小说章节内容

    1.3.3 列表字符串转换

    1.4 结果文件命名与写入

    1.4.1 逐章写入

    文件名为章节名  文件内容为章节名+章节内容

    1.4.2 整体写入

    使用同一个文件名,a+方式写入文件内容  

    文件内容为章节名+章节内容 不变

    1.5 基础反爬机制

    1.5.1 爬取50章之后等待0.5秒 

    1.5.2 爬起200章之后随机等待2~100s后继续

    1.5.3 携带请求头(未用到)

    1.6 其他功能

    1.6.1 文件名非法排除功能 

    去除文件名中的非法字符,防止系统无法写入文件名导致程序中止退出

    1.6.2 下载日志log文件写入功能

    本质为txt文件的写入,后缀名命名为log就行

    加入下载章节进度以及文件写入状态信息

    下载异常可重新调用程序断点续传(未开发,可手动重新下载)


    嗯,贴了逻辑就行,代码就不传了,比较简单,几个小时的事情~


    记录CLosed 

    2020 Week 2

    2020年1月12日14:46:13

    相关文章

      网友评论

        本文标题:Python 学习笔记 094

        本文链接:https://www.haomeiwen.com/subject/bkfiactx.html