「爬虫」17当当网书籍信息爬虫及结果写入数据库

作者: 林拂晓 | 来源:发表于2020-01-19 19:37 被阅读0次

「爬虫」17当当网书籍信息爬虫及结果写入数据库
python第六天
Python第三天（spider_当当）
scrapy深度爬虫——01爬虫模块
「爬虫」15爬虫之scrapy爬虫项目实战（无登录）
Python·爬取当当网图书信息
简单python爬虫，爬取基金信息
爬虫实例：当当网书籍介绍
scrapy多模块复用同一个数据库链接
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存

1.项目需求：将当当网程序设计类（）书籍的商品名、商品链接以及评价数爬取后保存到mysql数据库中。

当当网程序设计类书籍

2.项目实施步骤

（1）创建爬虫项目和文件。

scrapy startproject dangdang

scrapy genspider -t basic dd dangdang.com

（2）编写items.py文件。

dangdang/items.py

（3）编写dd.py文件。

dangdang/Spiders/dd.py

（4）数据处理准备：若本机已准备好mysql数据库，直接对数据库进行操作；若没有，则进行安装。

cmd安装pymysql的命令：

pip install pymysql

cmd进入mysql的命令：

cmd运行mysql.exe

建立dangdang数据库：

create database dangdang;

切换数据库：

use dangdang;

库中建立存储爬取结果的book表：

create table book(title char(100) primary key,link char(100) unique,comment char(20));

【注】①在mysql/bin文件中直接运行mysql.exe文件可能出现闪退的情况，处理的一种方法就是在shell中先进入mysql/bin，再利用命令mysql.exe -u root -p进入mysql的shell。

②mysql shell常使用的sql命令有：

show databases；

create database 数据库名；

use 数据库名；

create table 表名(字段名1 字段类型属性,字段名1 字段类型属性,...)；

select * from 表名；

insert into 表名（字段1，字段2，...）values（“值1”，“值2”，...）；

③在mysql的shell中输入命令，一定要以；为结束标识符。

（5）编写pipelines.py文件（写入数据库）。