Scrapy爬取第一个网站-伯乐在线

Scrapy爬取第一个网站-伯乐在线

作者: 王先生_4666 | 来源:发表于2018-05-13 21:17 被阅读0次

分布式爬虫scrapy+redis入门
使用scrapy爬虫框架抓取伯乐在线的文章标题、标题url与发布
Python爬虫进阶
Scrapy爬取伯乐在线
第三章爬取伯乐在线
基于Scrapy爬取伯乐在线网站
Scrapy爬取第一个网站-伯乐在线
Python爬取伯乐在线网站
scrapy爬取伯乐在线文章
scrapy爬取伯乐在线文章

分析网站结构

爬取blog.jobbole.com

该网站提供了所有文章的URL

新建虚拟环境(指定虚拟环境)

mkvirtualenv --python=路径虚拟环境名字

安装scrapy(使用豆瓣源)

workon 虚拟环境名，进入虚拟环境后

pip install -i https://pypi.douban.com/simple/ scrapy

新建Scrapy工程

scrapy startproject 项目名

利用模板新建爬虫文件

在项目目录下

scrapy genspider jobbole blog.jobbole.com

继承了scrapy.Spider类，start_urls是一个list，可以放入想爬取的所有的URL。

对start_urls 进行遍历，yield Request交给Scrapy的下载器，下载完之后，进入到parse函数中，有一个response对象。

自定义main文件调用命令行使pycharm可以调试

os.path.abspath(__file__) # 得到当前文件的绝对路径

os.path.dirname(os.path.abspath(__file__)) # 得到当前文件的父目录

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(["scrapy","crawl","jobbole"]) # 启动jobbole爬虫

注意settings.py 的ROBOTSTXT_OBEY协议设置为False

出现错误：No module named 'win32api'

因为windows下缺少这个包，通过pip命令安装

pip install -i 豆瓣源 pypiwin32

通过xpath提取值

xpath使用路径表达式在xml和html中进行导航

xpath语法

1. article:选取所有article元素的所有子节点

2. /article:选取根元素article

3. article/a: 属于article的子元素的a元素

4. //div: 获取所有div

5. article//div: article下的所有div

6. //@class: 选取所有名为class的属性

/article/div[1]

/article/div[last()]

//div[@lang='eng'] 取lang属性为eng的div

/div/* div下的所有子节点

//* 选取所有元素

//div[@*] 选取所有带属性的元素

response.xpath('//*[@id="post-110287"]/div[1]/h1/text') # xpath提取标题

response.xpath('//span[contains(@class,'vote-post-up')]') # 找一个span,他的class包含vote-post-up

通过CSS选择器提取值

response.css('.entry-header h1::text').extract()

关键代码

from scrapy.http import Request

from urllib import parse # python2 中是urlparse

Item

Scrapy 自动下载图片pipeline设置

no module PIL报错：

pip install pillow

将数据作为json文件保存

将数据插入数据库中

安装mysql驱动：pip install mysqlclient

相关文章

分布式爬虫scrapy+redis入门
利用分布式爬虫scrapy+redis爬取伯乐在线网站，网站网址：http://blog.jobbole.com/...
使用scrapy爬虫框架抓取伯乐在线的文章标题、标题url与发布
使用scrapy爬虫框架抓取伯乐在线的文章标题、标题url与发布时间 Scrapy是一个为了爬取网站数据，提取结构...
Python爬虫进阶
明确爬取的网站 http://web.jobbole.com/all-posts/ 选择伯乐在线网站，爬取网站中的...
Scrapy爬取伯乐在线
Scrapy爬取伯乐在线文章准备工作： python环境，我是用Anaconda Scrapy环境,上一篇文章提...
第三章爬取伯乐在线
爬取伯乐在线标签（空格分隔）： python scrapy 项目创建 pycharm 本身是不会自带 scrap...
基于Scrapy爬取伯乐在线网站
标题中的英文首字母大写比较规范，但在python实际使用中均为小写。2018年7月20日笔记Scrapy官方文档网...
Scrapy爬取第一个网站-伯乐在线
分析网站结构爬取blog.jobbole.com 该网站提供了所有文章的URL 新建虚拟环境(指定虚拟环境) m...
Python爬取伯乐在线网站
Python3.5+Scrapy爬取伯乐在线的博客文章创建虚拟环境使用命令行创建scrapy项目创建基本模板...
scrapy爬取伯乐在线文章
爬取伯乐在线文章相对来说是比较简单的，因为网站没有什么反爬取的措施，整站爬取我们可以使用广度优先算法和深度优先算法...
scrapy爬取伯乐在线文章
创建爬虫工程完整项目结构表结构 jobbole.py items.py pipelines.py settin...

网友评论

本文标题：Scrapy爬取第一个网站-伯乐在线

本文链接：https://www.haomeiwen.com/subject/pcuilftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Scrapy爬取第一个网站-伯乐在线|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！