美文网首页
无标题文章

无标题文章

作者: sherldon_zhao | 来源:发表于2017-05-16 11:13 被阅读0次

    抓取四川大学公共管理学院动态新闻及详情页

    赵静       信管

    因为我们小组重新重置了阿里云,所以需要重新配置环境,

    开始抓取

    抓取的spider如下:

    spider1

    我选择从more那一页进行抓取,即

    可以看到url

    抓取这一页的每个新闻的url,再进一步抓取详情页的标题、时间、内容、图片等信息。

    当spider 1 时,可以正确的爬取标题、时间、内容,结果如下:

    把抓取图片的代码加入,抓取图片的url

    spider2

    当spider2 时,就是把图片抓取加进去时,并不能抓取图片的url

    综上:成功实现抓取标题、时间、内容,未成功地抓取图片url.

    相关文章

      网友评论

          本文标题:无标题文章

          本文链接:https://www.haomeiwen.com/subject/tqqlxxtx.html