Python 学习笔记 094

作者: 夜羽萧轩 | 来源:发表于2020-01-25 18:45 被阅读0次

Python 学习笔记 094
小程序学习笔记-7（封装API模块）
python学习笔记目录
大师兄的Python学习笔记(十九）: Python与(XML和
大师兄的Python学习笔记(二十）: 爬虫（一）
大师兄的Python学习笔记(十七）: Mail编程
大师兄的Python学习笔记(十八）: Python与HTTP
python学习笔记
Python学习笔记
python收藏的干货

本周学习内容 07

本次分享主题

自动爬取网页内容并保存为TXT 06

自动爬取小说

1.简单逻辑

1.1请求网页数据

1.2 Xpath提取章节内容相对地址&章节名

1.3 循环逐章处理数据

1.3.1 拼接章节绝对地址

1.3.2 Xpath得到小说章节内容

1.3.3 列表字符串转换

1.4 结果文件命名与写入

1.4.1 逐章写入

文件名为章节名文件内容为章节名+章节内容

1.4.2 整体写入

使用同一个文件名，a+方式写入文件内容

文件内容为章节名+章节内容不变

1.5 基础反爬机制

1.5.1 爬取50章之后等待0.5秒

1.5.2 爬起200章之后随机等待2~100s后继续

1.5.3 携带请求头（未用到）

1.6 其他功能

1.6.1 文件名非法排除功能

去除文件名中的非法字符，防止系统无法写入文件名导致程序中止退出

1.6.2 下载日志log文件写入功能

本质为txt文件的写入，后缀名命名为log就行

加入下载章节进度以及文件写入状态信息

下载异常可重新调用程序断点续传（未开发，可手动重新下载）

嗯，贴了逻辑就行，代码就不传了，比较简单，几个小时的事情~

记录CLosed

2020 Week 2

2020年1月12日14:46:13

网友评论

我的Python自学之路

本文标题：Python 学习笔记 094

本文链接：https://www.haomeiwen.com/subject/bkfiactx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python 学习笔记 094

相关文章