基于scrapy框架的Python爬虫爬取新浪新闻

基于scrapy框架的Python爬虫爬取新浪新闻

作者: Nise9s | 来源:发表于2018-02-02 16:09 被阅读0次

基于scrapy框架的Python爬虫爬取新浪新闻
各类链接
Scrapy功能介绍
Python爬虫作业 | 爬取拉勾职位信息-Scrapy版
python爬虫框架Scrapy
【读书笔记】_爬虫
微博爬虫开源项目汇总大全（长期更新、欢迎补充）
36氪新闻爬虫
Scrapy流程及模块介绍
Scrapy与scrapy-redis分布式爬虫抓取

一、简单思路

下图新浪新闻中心的首页，也就是我们要爬取的第一页：新浪新闻中心的国际板块

1

此页下拉发现有五个小栏目：

2

每个小栏目下拉会继续加载页面，同时加载到最底下还会发现有翻页选项：

3

在Chrome中打开调试者工具（F12），进入Network选项，点击JS：

4

刷新页面，下拉加载新闻，观察调试者工具中的变化：

5

可以发现，每下拉加载一次或点击翻页就会请求一个新的网页，这个网页和前一页的区别就是在page的值上发生了变化，如图5Request URL处所示。理论上来说，根据这一规律可以将这一栏目的所有新闻全部爬取。

下面再看五个小栏目的区别：分别点开，观察调试者工具中的变化：

对于亚洲栏目：

http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gjxw&cat_3=gj-yz&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json&page=1&callback=newsloadercallback&_=1517556788882

对于欧洲栏目：

http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gjxw&cat_3=gj-oz&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json&page=3&callback=newsloadercallback&_=1517557031988

发现除page以外唯一的区别就是cat-3的值不同，结合前面提到的page变化，可以爬取五个栏目的不同页的新闻。同时也可以进入国内、社会、军事等其他具有类似结构的页面进行爬取。

思路：首先在parse中，设置两层循环，提取不同栏目下不同页面所有新闻的URL，同时返回这些URL的Request，并且通过item传递URL到parse_item回调函数。再用parse_item解析这些新闻页面，提取出标题和内容，将item传入Pipeline对爬取的数据进行存储。

二、部分代码

1、items

6

2、pipelines

7

3、settings

8

9

10

11

3、middlewares

可以保留默认的middlewares内容，如下为添加的，用于随机选择代理IP和代理浏览器（代理IP不一定可用，可以上网寻找可用的免费代理IP）：

from scrapy import signals

import random

import base64

from SinaBot.settings import PROXIES

class RandomUserAgent(object):

"""Randomly rotate user agents based on a list of predefined ones"""

def __init__(self, agents):

self.agents = agents

@classmethod

def from_crawler(cls, crawler):

return cls(crawler.settings.getlist('USER_AGENTS'))

def process_request(self, request, spider):

print("**************************" + random.choice(self.agents))

request.headers.setdefault('User-Agent', random.choice(self.agents))

class ProxyMiddleware(object):

def process_request(self, request, spider):

proxy = random.choice(PROXIES)

if proxy['user_pass']is not None:

request.meta['proxy'] ="http://%s" % proxy['ip_port']

encoded_user_pass = base64.encodestring(proxy['user_pass'].encode("utf-8")).decode("utf-8")

request.headers['Proxy-Authorization'] ='Basic ' + encoded_user_pass

print("**************ProxyMiddleware have pass************" + proxy['ip_port'])

else:

print("**************ProxyMiddleware no pass************" + proxy['ip_port'])

request.meta['proxy'] ="http://%s" % proxy['ip_port']

pass

4、SinaSpider

12

13

14

三、爬取结果

上万条新闻，如果想爬取特定的页数，同样也可以对Spider中的min_page_num和max_page_num做限制。

15

问题：新老新闻的URL格式会发生变化，采用同样的正则表达式会出现老新闻不能提取的问题。

下一步关注点：如何做全站爬取，如何获取可靠的代理IP。

（1）关于全站爬取：推荐使用提取链接（LinkExtractor）的方法，不断提出对于新闻页的请求，将不是新闻页的链接筛掉。不断循环往复，构造多个爬虫，从同一网站的多个站点开始爬取，最终爬取全站内容。几乎可以爬取各类主要新闻网页的全站。

（2）关于代理IP：Crawlera或者Goagent，也可以花钱购买服务，不过一般会有抓取次数限制，而且高质量的服务价格更昂贵。

相关文章

基于scrapy框架的Python爬虫爬取新浪新闻
一、简单思路下图新浪新闻中心的首页，也就是我们要爬取的第一页：新浪新闻中心的国际板块此页下拉发现有五个小栏目：...
各类链接
爬虫使用python-aiohttp爬取今日头条【Python】爬虫爬取各大网站新闻 Scrapy 模拟登录新...
Scrapy功能介绍
scrapy是一个为爬取网站，提取结构化数据而创建的一个爬虫框架，scrapy基于python，是目前python...
Python爬虫作业 | 爬取拉勾职位信息-Scrapy版
由于说到Python爬虫一定绕不过Scrapy框架，所以这次也就尝试将之前的爬虫用Scrapy框架爬取拉勾网,这个...
python爬虫框架Scrapy
爬虫框架Scrapy(一) 框架Scrapy是使用python实现的一个爬取网站数据、提取数据的异步网络框架，加快...
【读书笔记】_爬虫
使用urllib模块爬取图片并下载到本地 python爬虫框架-Scrapy学习自：http://python.j...
微博爬虫开源项目汇总大全（长期更新、欢迎补充）
SinaSpider- 基于scrapy和redis的分布式微博爬虫。SinaSpider主要爬取新浪微博的个人信...
36氪新闻爬虫
GitHub传送门简介 36氪新闻爬虫主要功能为爬取各分类标签下的文章基于Scrapy框架采用Mong...
Scrapy流程及模块介绍
参考资料：python网络爬虫开发实战 1.scrapy的优势 Scrapy框架具有高效爬取速率，相关扩展组件多，...
Scrapy与scrapy-redis分布式爬虫抓取
Scrapy爬虫框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途...

网友评论

本文标题：基于scrapy框架的Python爬虫爬取新浪新闻

本文链接：https://www.haomeiwen.com/subject/tvkezxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|基于scrapy框架的Python爬虫爬取新浪新闻|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！