python爬虫-爬取盗墓笔记

python爬虫-爬取盗墓笔记

作者: 9ba4bd5525b9 | 来源:发表于2019-04-19 14:57 被阅读31次

python爬虫-爬取盗墓笔记
python爬虫-爬取盗墓笔记
大师兄的Python学习笔记(二十三）: 爬虫（四）
大师兄的Python学习笔记(二十七）: 爬虫（八）
各类链接
Python学习
Python ☞ day 14
Python爬虫实战之爬取链家广州房价_03存储
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
python爬虫实战——爬取股票个股信息

这次爬取的网址是http://seputu.com/。之前也经常在上面在线看盗墓笔记。

按照咱们之前的学习爬虫的做法，使用firebug审查元素，查看如何解析html。

这次咱们要把书的名称，章节，章节名称，章节链接抽取出来，存储到数据库中，同时将文章的内容提取出来存成txt文件。

看一下html结构就会发现这个页面结构非常分明，标题的html节点是div class = ''mulu-title"，章节的节点是 div class= "box" ，每一章的节点是 div class= "box"中的<li>标签。

然后咱们将第一章的链接http://seputu.com/biji1/1.html打开，上面就是文章的内容。

可以看到文章的内容是使用 div class ="content-body"中的<p>标签包裹起来的，总体来说提取难度挺小。

打开cmd，输入scrapy startproject daomubiji,这时候会生成一个工程，然后我把整个工程复制到pycharm中

上图就是工程的结构。

DaomubijiSpider.py ------Spider 蜘蛛

items.py -----------------对要爬取数据的模型定义

pipelines.py-------------处理要存储的数据(存到数据库和写到文件)

settings.py----------------对Scrapy的配置

main.py -------------------启动爬虫

test.py -------------------- 测试程序(不参与整体运行)

下面将解析和存储的代码贴一下

接下来切换到main.py所在目录，运行python main.py启动爬虫。

没过几分钟，爬虫就结束了，咱们看一下爬取的数据和文件。

数据库数据:

相关文章

python爬虫-爬取盗墓笔记
本来今天要继续更新 **scrapy爬取美女图片 **系列文章，可是发现 **使用免费的代理ip都非常不稳定，有...
python爬虫-爬取盗墓笔记
这次爬取的网址是http://seputu.com/。之前也经常在上面在线看盗墓笔记。按照咱们之前的学习爬虫的做...
大师兄的Python学习笔记(二十三）: 爬虫（四）
大师兄的Python学习笔记(二十二）: 爬虫（三）大师兄的Python学习笔记(二十四）: 爬虫（五）五、爬取...
大师兄的Python学习笔记(二十七）: 爬虫（八）
大师兄的Python学习笔记(二十六）: 爬虫（七）大师兄的Python学习笔记(二十八）: 爬虫（九）九、爬取...
各类链接
爬虫使用python-aiohttp爬取今日头条【Python】爬虫爬取各大网站新闻 Scrapy 模拟登录新...
Python学习
python爬虫(五) python爬虫爬取豆瓣电影Top250数据利用python爬取豆瓣电影TOP250页面...
Python ☞ day 14
Python学习笔记之爬虫 urllib 模块提供了一系列用于操作URL的功能 urllib 爬取网页将爬取的...
Python爬虫实战之爬取链家广州房价_03存储
问题引入系列目录： Python爬虫实战之爬取链家广州房价_01简单的单页爬虫 Python爬虫实战之爬取链家广...
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存目的采用python爬虫爬取豆瓣电影Top25...
python爬虫实战——爬取股票个股信息
python爬虫实战——爬取股票个股信息 python IDLE版本：(Python 3.6 64-bit) 爬虫...

网友评论

本文标题：python爬虫-爬取盗墓笔记

本文链接：https://www.haomeiwen.com/subject/ujiqgqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

虫虫

思科DevNet

python_pycham

Python

关于我们|服务条款|联系我们|python爬虫-爬取盗墓笔记|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！