Scrapy泡面小镇新闻抓取练手篇一

作者: 金融界审核大表哥 | 来源:发表于2018-08-23 09:37 被阅读7次

Scrapy泡面小镇新闻抓取练手篇一
Scrapy抓手机App数据（存入MongoDB ）
python 爬虫之路之Scrapy框架
scrapy抓取百度图片-写给自己看爬虫系列1
Scrapy安装
初识Scrapy框架+爬虫实战(7)-爬取链家网100页租房信息
Win32 Python3.6爬虫-Scrapy简介与安装
Scrapy定时爬虫总结&Docker/K8s部署
Scrapy抓取多层网页结构详解(三)
Python爬虫之Scrapy的安装

import scrapy

class mingyan(scrapy.Spider):

name ="paomian"

start_urls = [

'http://www.pmtown.com/archives/category/早报'

]

def parse(self, response):

for vin response.css('ul.article-list li'):

lianjie = v.css('a::attr(href)')[0].extract()

title = v.css('a::attr(title)')[0].extract()[5:]

detail = v.css('p::text')[0].extract()

image = v.css('div.item-img>a>img::attr(src)').extract_first()

img = ''

if imageUrl is not None:

        img=imageUrl

else:

        img='null'

yield {

'title': title,

'introduction': detail,

'detailUrl':lianjie,

'imageUrl':img,

}

dt = response.css('#wrap div.main.container div.content div.sec-panel.archive-list div.pagination.clearfix a.next')

next_page = aa.css('a::attr(href)').extract_first()

print('-------->%s',next_page)

print(next_page)

if next_page is not None:

        nexthref = response.urljoin(next_page)

        yield scrapy.Request(next_page, callback=self.parse,dont_filter=True)

# scrapy crawl 'paomian' -o paomian.json

以上是每日最新的泡面小镇早报篇数据抓取仅供练手而已~如有侵权请联系我删掉文章

网友评论

本文标题：Scrapy泡面小镇新闻抓取练手篇一

本文链接：https://www.haomeiwen.com/subject/ybedmftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Scrapy泡面小镇新闻抓取练手篇一

相关文章

Scrapy泡面小镇新闻抓取练手篇一

Scrapy抓手机App数据（存入MongoDB ）

python 爬虫之路之Scrapy框架

scrapy抓取百度图片-写给自己看爬虫系列1

Scrapy安装

初识Scrapy框架+爬虫实战(7)-爬取链家网100页租房信息

Win32 Python3.6爬虫-Scrapy简介与安装

Scrapy定时爬虫总结&Docker/K8s部署

Scrapy抓取多层网页结构详解(三)

Python爬虫之Scrapy的安装

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读