scrapy 牛
scrapy是一个非常强大的框架,我们可以用它在网络上自由自在的爬取各种数据,当然,要合法啦,爬到的数据可以持久化在本地文件/CSV文件/json文件/mysql数据库/mongodb数据库.....等等
存入CSV文件/json文件中操作比较简单,只需在命令行中启动项目的时候在启动时输入即可,或者有其他方法,可以自行百度,当然,还是建议查看官方文档,毕竟官方出品,必属精品
···
scrapy runspider quotes_spider.py -o quotes.json
···
此次我就存入mongodb数据库详细写一下,后期还会增加存入MySQL数据库的操作
由于这个demo比较简单,所以很容易理解
我这个是爬取的雪球网,数据库的名称为:spider_1129, 表的名称为:xueqiu
items.py 中的操作
data:image/s3,"s3://crabby-images/446c6/446c6a7bc89e363b8ffce1cc2846ac257fdb1388" alt=""
xueqiu.py 中操作
data:image/s3,"s3://crabby-images/9901e/9901e95f276a76f7376b609e1fb553541e899492" alt=""
settings.py 中操作
请求头需要加User-agent,Referer方可访问,还要在middlewares.py中自己写cookies中间件,不然通不过服务器的验证,无法获取数据
data:image/s3,"s3://crabby-images/28848/28848ea4b47b19e91398569ef821d99c110f27fc" alt=""
data:image/s3,"s3://crabby-images/6b55f/6b55f59b1e139cc607099e5b2509f393b240c180" alt=""
data:image/s3,"s3://crabby-images/8c100/8c100ba42add7a74cf73637bb2e48f73e18efd9e" alt=""
pipelines.py 中操作
data:image/s3,"s3://crabby-images/f2159/f2159c940c0e040f5f7c8ea9c28d213f8c1b3af0" alt=""
middlewares.py 中的操作
需重写中间件,在向服务器发送请求的时候把需要的请求头数据发送过去,尤其是cookie
data:image/s3,"s3://crabby-images/d4493/d449362d99bdc940c62cb7fb18a1b96e69bc24ce" alt=""
额外增加 可优化启动项目,无需在命令行执行scrapy crawl xxxx 只需在自定义的main.py中右键启动即可
data:image/s3,"s3://crabby-images/087ba/087ba3315acc955b5473ed3ee8ca5b99b4f484b0" alt=""
网友评论