allitbooks网站爬取

allitbooks网站爬取

作者: 沉思故事 | 来源:发表于2018-06-20 23:45 被阅读50次

allitbooks网站爬取
Selenium小例子
Python爬虫进阶
Scrapy学习——深度优先和广度优先
爬取网站
python爬虫学习手册-服务器渲染（基础库urllib）熟悉
爬虫从零开始--爬取静态网站
scrapy中间件实现增量爬虫
电影天堂爬虫
程序员都有对象！没有的也用Python找了成千上万个了！不信你看

目标：获取allitbooks网站的书籍信息，特别是书名和下载直链，存到cassandra或者scylla中

github主页：https://github.com/baiwfg2/scrapy-examples/tree/master/allitbooks

get到所有大主题

response.css('div ul#menu-categories li a::text').extract()

1.png

get所有的大主题url

response.css('div ul#menu-categories li a::attr(href)').extract()

1.5.png

get database页面下的总页数：

response.css('div.pagination a::text').extract()[-1]

2.png

get database/page/3下的所有book link，

response.css('h2.entry-title a::attr(href)').extract()

3.png

get one book的作者，可能有多个

response.css('div.book-detail dl').xpath('.//dt[text()="Author:"]/following-sibling::dd')[0].css('a::text').extract()

4.png

效果图：

5.png

遗憾的是，只爬取到143条数据。日后在诊断原因……

搜索的主键name太长，需要模糊查找！！

clipboard.png

相关文章

allitbooks网站爬取
目标：获取allitbooks网站的书籍信息，特别是书名和下载直链，存到cassandra或者scylla中 gi...
Selenium小例子
爬取腾讯动漫爬取某网站漫画爬取拉勾网
Python爬虫进阶
明确爬取的网站 http://web.jobbole.com/all-posts/ 选择伯乐在线网站，爬取网站中的...
Scrapy学习——深度优先和广度优先
爬取的过程爬取网站前首先要对其网站的url结构进行分析，遇到已经爬取过的网址会将其加入已经爬取的列表中，避免重复...
爬取网站
1.新建项目 2.新建爬虫 3.新建python文件main 4.编写item文件定义需要抓取的字段名 5.编写爬...
python爬虫学习手册-服务器渲染（基础库urllib）熟悉
今天我们来说说python爬虫的第一步！爬，爬这一步分为网站爬取和APP爬取，而网站爬取里面按照渲染方式，有分为服...
爬虫从零开始--爬取静态网站
利用BeautifulSoup爬取静态html网站例子：爬取quner网站信息查看网页源码发现，景点名称西湖t...
scrapy中间件实现增量爬虫
前言 scrapy爬取网站数据的时候，一般第一次爬取为全量爬取，以后需要的都是增量爬取，或者爬取中断之后需要继续爬...
电影天堂爬虫
爬取网站网址：https://www.dytt8.net/ 爬取内容：电影详情数据
程序员都有对象！没有的也用Python找了成千上万个了！不信你看
Requests 库爬取「我主良缘」网站今天的程序就是利用 requests 库进行「我主良缘」网站的爬取。我的...

网友评论

我爱编程

本文标题：allitbooks网站爬取

本文链接：https://www.haomeiwen.com/subject/nuvtyftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

我爱编程

关于我们|服务条款|联系我们|allitbooks网站爬取|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！