美文网首页Python小哥哥
Python使用Scrapy框架爬取数据存入CSV文件

Python使用Scrapy框架爬取数据存入CSV文件

作者: 我爱学python | 来源:发表于2019-06-17 16:41 被阅读9次

1. Scrapy框架

  Scrapy是python下实现爬虫功能的框架,能够将数据解析、数据处理、数据存储合为一体功能的爬虫框架。

2. Scrapy安装

1. 安装依赖包

2. 安装scrapy

 注意事项:scrapy和twisted存在兼容性问题,如果安装twisted版本过高,运行scrapy startproject project_name的时候会提示报错,安装twisted==13.1.0即可。

3. 基于Scrapy爬取数据并存入到CSV

3.1. 爬虫目标,获取简书中热门专题的数据信息,站点为https://www.jianshu.com/recommendations/collections,点击"热门"是我们需要爬取的站点,该站点使用了AJAX异步加载技术,通过F12键——Network——XHR,并翻页获取到页面URL地址为https://www.jianshu.com/recommendations/collections?page=2&order_by=hot,通过修改page=后面的数值即可访问多页的数据,如下图:

3.2. 爬取内容

  需要爬取专题的内容包括:专题内容、专题描述、收录文章数、关注人数,Scrapy使用xpath来清洗所需的数据,编写爬虫过程中可以手动通过lxml中的xpath获取数据,确认无误后再将其写入到scrapy代码中,区别点在于,scrapy需要使用extract()函数才能将数据提取出来。

3.3 创建爬虫项目

 3.4 代码内容

1. items.py代码内容,定义需要爬取数据字段

2. piders/jianshu_hot_topic_spider.py代码内容,实现数据获取的代码逻辑,通过xpath实现

3. pipelines文件内容,定义数据存储的方式,此处定义数据存储的逻辑,可以将数据存储载MySQL数据库,MongoDB数据库,文件,CSV,Excel等存储介质中,如下以存储载CSV为例:

4. 修改settings文件,

 3.5 运行scrapy爬虫

  返回到项目scrapy项目创建所在目录,运行scrapy crawl spider_name即可,如下:

查看/root/zhuanti.csv中的数据,即可实现。

4. 遇到的问题总结

1. twisted版本不见容,安装过新的版本导致,安装Twisted (13.1.0)即可

2. 中文数据无法写入,提示'ascii'错误,通过设置python的encoding为utf即可,如下:

 3. 爬虫无法获取站点数据,由于headers导致,载settings.py文件中添加USER_AGENT变量,如:

USER_AGENT="Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0"

 Scrapy使用过程中可能会遇到结果执行失败或者结果执行不符合预期,其现实的logs非常详细,通过观察日志内容,并结合代码+网上搜索资料即可解决。

相关文章

  • Python使用Scrapy框架爬取数据存入CSV文件

    1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析、数据处理、数据存储合为一体...

  • python爬虫框架Scrapy

    爬虫框架Scrapy(一) 框架Scrapy是使用python实现的一个爬取网站数据、提取数据的异步网络框架,加快...

  • Python爬虫之Scrapy框架爬取XXXFM音频文件

    本文介绍使用Scrapy爬虫框架爬取某FM音频文件。 框架介绍 Scrapy是一个为了爬取网站数据,提取结构性数据...

  • 2021-07-21

    Scrapy框架的基本使用 scrapy框架简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构...

  • Scrapy框架简介

    Scrapy 是一个用 Python 实现的为了爬取网站数据、提取结构性数据的应用框架。Scrapy 使用Twis...

  • Scrapy框架步骤

    简单了解一下Scrapy框架于操作步骤 什么是Scrapy框架呢? scrapy是python下的数据爬取集框架,...

  • spider整理

    Scrapy框架是一个Python的爬取网站数据,提取结构性数据的应用框架,用途广泛。Scrapy Engine(...

  • [CP_14] Python爬虫框架01:Scrapy框架创建项

    目录结构 一、Scrapy框架简介 1. Scrapy引入 Scrapy:是用Python实现爬取网站数据、提取结...

  • Scrapy框架学习---Scrapy介绍(一)

    Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非...

  • Scrapy框架介绍

    Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非...

网友评论

    本文标题:Python使用Scrapy框架爬取数据存入CSV文件

    本文链接:https://www.haomeiwen.com/subject/zrtzfctx.html