本周学习内容 07
本次分享主题
自动爬取网页内容并保存为TXT 06
自动爬取小说
1.简单逻辑
1.1请求网页数据
1.2 Xpath提取章节内容相对地址&章节名
1.3 循环逐章处理数据
1.3.1 拼接章节绝对地址
1.3.2 Xpath得到小说章节内容
1.3.3 列表字符串转换
1.4 结果文件命名与写入
1.4.1 逐章写入
文件名为章节名 文件内容为章节名+章节内容
1.4.2 整体写入
使用同一个文件名,a+方式写入文件内容
文件内容为章节名+章节内容 不变
1.5 基础反爬机制
1.5.1 爬取50章之后等待0.5秒
1.5.2 爬起200章之后随机等待2~100s后继续
1.5.3 携带请求头(未用到)
1.6 其他功能
1.6.1 文件名非法排除功能
去除文件名中的非法字符,防止系统无法写入文件名导致程序中止退出
1.6.2 下载日志log文件写入功能
本质为txt文件的写入,后缀名命名为log就行
加入下载章节进度以及文件写入状态信息
下载异常可重新调用程序断点续传(未开发,可手动重新下载)
嗯,贴了逻辑就行,代码就不传了,比较简单,几个小时的事情~
记录CLosed
2020 Week 2
2020年1月12日14:46:13
网友评论