美文网首页
「爬虫」17当当网书籍信息爬虫及结果写入数据库

「爬虫」17当当网书籍信息爬虫及结果写入数据库

作者: 林拂晓 | 来源:发表于2020-01-19 19:37 被阅读0次

1.项目需求:将当当网程序设计类()书籍的商品名、商品链接以及评价数爬取后保存到mysql数据库中。

当当网程序设计类书籍

2.项目实施步骤

(1)创建爬虫项目和文件。

scrapy startproject dangdang

scrapy genspider -t basic dd dangdang.com

(2)编写items.py文件。

dangdang/items.py

(3)编写dd.py文件。

dangdang/Spiders/dd.py

(4)数据处理准备:若本机已准备好mysql数据库,直接对数据库进行操作;若没有,则进行安装。

cmd安装pymysql的命令:

pip install pymysql

cmd进入mysql的命令:

cmd运行mysql.exe

建立dangdang数据库:

create database dangdang;

切换数据库:

use dangdang;

库中建立存储爬取结果的book表:

create table book(title char(100) primary key,link char(100) unique,comment char(20));

【注】①在mysql/bin文件中直接运行mysql.exe文件可能出现闪退的情况,处理的一种方法就是在shell中先进入mysql/bin,再利用命令mysql.exe -u root -p进入mysql的shell。

②mysql shell常使用的sql命令有:

show databases;

create database 数据库名;

use 数据库名;

create table 表名(字段名1 字段类型 属性,字段名1 字段类型 属性,...);

select * from 表名;

insert into 表名(字段1,字段2,...)values(“值1”,“值2”,...);

③在mysql的shell中输入命令,一定要以;为结束标识符。

(5)编写pipelines.py文件(写入数据库)。

dangdang/pipelines.py

(6)编写settings.py文件(开启爬虫)。

dangdang/settings.py

(7)运行爬虫。

scrapy crawl dd --nolog

(8)查看结果。

sql语句查看结果 数据库查看结果

相关文章

网友评论

      本文标题:「爬虫」17当当网书籍信息爬虫及结果写入数据库

      本文链接:https://www.haomeiwen.com/subject/xrxdzctx.html