美文网首页
对豆瓣读书TOP250的爬虫实验

对豆瓣读书TOP250的爬虫实验

作者: hai_king | 来源:发表于2018-05-21 01:24 被阅读0次

    一、创建项目
    按照对scrapy的学习,我们通过xshell连接了服务器,并在服务器中创建了scrapy项目,项目名douban


    二:修改items.py文件
    打开douban文件夹,使用rs命令下载items.py文件,并进行修改



    修改内容如下


    后期实验中我们发现:作者这一单词“athor”拼写有误,但为了纪念这一困扰我们多时的问题,我们在终于查出错后保留了“athor”这一单词并引以为戒!

    三、创建doubanbookspider.py文件
    将修改后的文件重新上传,并打开spiders文件,创建doubanbookspider.py文件,文件内容如图


    将文件上传,并运行代码:scrapy crawl doubanbookspider -o data.json
    运行结果如下:


    四:解决拒绝访问的问题
    通过观察,发现爬取的文件并不完全,爬取过程中出现403错误,且生成的json文件内容为空。上网查阅资料,发现可通过修改setting.py文件完成爬取。
    于是将setting文件中user_agent前的井号去掉并修改相关代码。


    再次执行爬取操作


    成功爬取250条。
    导出json文件


    五、css代码示例


    六、心得
    1.本组进行scrapy爬虫时,选择通过服务器上的scrapy进行,故在对项目进行管理时需要上传或下载图片,为此,我们选择了安装ZModem文件传输的命令行工具,后期发现此过程较为繁琐。在今后爬虫实验中,将尽量使用本机中配置的scrapy进行。
    2.在文件修改过程中,对命名需要更加严谨,本次实验中较多错误的产生来自于不同文件中相同元素的引用错误。

    相关文章

      网友评论

          本文标题:对豆瓣读书TOP250的爬虫实验

          本文链接:https://www.haomeiwen.com/subject/lipxjftx.html