使用 Scrapy 框架爬取自己的简书文章

使用 Scrapy 框架爬取自己的简书文章

作者: 捡个七 | 来源:发表于2018-11-20 21:15 被阅读0次

使用Scrapy框架爬取简书首页文章（Selenium）
scrapy爬取妹子图
Python爬虫之Scrapy框架爬取XXXFM音频文件
使用Scrapy框架爬取简书首页文章（XPath）
2021-07-21
爬虫练习_使用scrapy爬取淘宝
python爬虫框架Scrapy
[scrapy]scrapy爬取京东商品信息——以自营手机为例
使用scrapy爬虫框架抓取伯乐在线的文章标题、标题url与发布
使用 Scrapy 框架爬取自己的简书文章

先爬取自己的简书页面来试下手。简单地获取个人简书页面的文章和链接。

创建项目

scrapy startproject jianshu

创建爬虫

cd jianshu   // 需要 cd 两次，有两个 jianshu 目录
cd jianshu
scrapy genspider jianshu_spider www.jianshu.com

编写爬虫

先启动 chrome 的开发者模式，找到自己需要的元素

执行scrapy shell "https://www.jianshu.com/u/96d116310516"，爬取自己简书首页数据，输入对应的提取数据的代码，查看提取的数据是否正确：

确认是自己想要提取的内容后，在创建的 jianshu_spider.py 里补充代码：

# -*- coding: utf-8 -*-
import scrapy


class JianshuSpiderSpider(scrapy.Spider):
    name = 'jianshu_spider'
    allowed_domains = ['www.jianshu.com']
    start_urls = ['https://www.jianshu.com/u/96d116310516']

    def parse(self, response):
        for item in response.css('.note-list li'):
            # 文章标题
            #print(item.css('div a::text').extract()[0])
            # 文章链接
            short_url = item.css('div a::attr(href)').extract()[0]
            # 文章完整 url
            full_url = response.urljoin(short_url)
            #print(full_url)
            yield {
                    'title': item.css('div a::text').extract()[0],
                    'url':full_url,
                    }

执行爬虫

在命令行窗口输入 scrapy crawl jianshu_spider，得到的结果如下：

相关文章

使用Scrapy框架爬取简书首页文章（Selenium）
直接贴代码解析可参考：使用Scrapy框架爬取简书首页文章（XPath）缺点：爬取速度太慢需要等待2s ，...
scrapy爬取妹子图
废话不多说，爬取妹子图片使用scrapy深度爬取，抓取妹子图全站图片 1.首先确认开发环境使用scrapy框架，...
Python爬虫之Scrapy框架爬取XXXFM音频文件
本文介绍使用Scrapy爬虫框架爬取某FM音频文件。框架介绍 Scrapy是一个为了爬取网站数据，提取结构性数据...
使用Scrapy框架爬取简书首页文章（XPath）
1、简历Scrapy工程 2、建立Spider 3、解析Response（使用XPath）第一页的数据解析比较简...
2021-07-21
Scrapy框架的基本使用 scrapy框架简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构...
爬虫练习_使用scrapy爬取淘宝
使用爬虫框架scrapy爬取淘宝一.创建项目 1.安装scrapy pip install scrapy 2.选...
python爬虫框架Scrapy
爬虫框架Scrapy(一) 框架Scrapy是使用python实现的一个爬取网站数据、提取数据的异步网络框架，加快...
[scrapy]scrapy爬取京东商品信息——以自营手机为例
关于scrapy以及使用的代理轮换中间件请参考我的爬取豆瓣文章：【scrapy】scrapy按分类爬取豆瓣电影基...
使用scrapy爬虫框架抓取伯乐在线的文章标题、标题url与发布
使用scrapy爬虫框架抓取伯乐在线的文章标题、标题url与发布时间 Scrapy是一个为了爬取网站数据，提取结构...
使用 Scrapy 框架爬取自己的简书文章
先爬取自己的简书页面来试下手。简单地获取个人简书页面的文章和链接。创建项目创建爬虫编写爬虫先启动 chro...

网友评论

本文标题：使用 Scrapy 框架爬取自己的简书文章

本文链接：https://www.haomeiwen.com/subject/hekfqqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|使用 Scrapy 框架爬取自己的简书文章|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！