1.项目需求:将当当网程序设计类()书籍的商品名、商品链接以及评价数爬取后保存到mysql数据库中。
当当网程序设计类书籍2.项目实施步骤
(1)创建爬虫项目和文件。
scrapy startproject dangdang
scrapy genspider -t basic dd dangdang.com
(2)编写items.py文件。
dangdang/items.py(3)编写dd.py文件。
dangdang/Spiders/dd.py(4)数据处理准备:若本机已准备好mysql数据库,直接对数据库进行操作;若没有,则进行安装。
cmd安装pymysql的命令:
pip install pymysql
cmd进入mysql的命令:
cmd运行mysql.exe建立dangdang数据库:
create database dangdang;
切换数据库:
use dangdang;
库中建立存储爬取结果的book表:
create table book(title char(100) primary key,link char(100) unique,comment char(20));
【注】①在mysql/bin文件中直接运行mysql.exe文件可能出现闪退的情况,处理的一种方法就是在shell中先进入mysql/bin,再利用命令mysql.exe -u root -p进入mysql的shell。
②mysql shell常使用的sql命令有:
show databases;
create database 数据库名;
use 数据库名;
create table 表名(字段名1 字段类型 属性,字段名1 字段类型 属性,...);
select * from 表名;
insert into 表名(字段1,字段2,...)values(“值1”,“值2”,...);
③在mysql的shell中输入命令,一定要以;为结束标识符。
(5)编写pipelines.py文件(写入数据库)。
dangdang/pipelines.py(6)编写settings.py文件(开启爬虫)。
dangdang/settings.py(7)运行爬虫。
scrapy crawl dd --nolog
(8)查看结果。
sql语句查看结果 数据库查看结果
网友评论