美文网首页
实验报告:采集川大公共管理学院新闻栏信息

实验报告:采集川大公共管理学院新闻栏信息

作者: 席纳霍霍 | 来源:发表于2017-05-15 22:29 被阅读0次

    一、实验目的和要求

    爬取川大公共管理学院网站新闻栏里的链接,进而获取详情页信息。

    二、实验步骤

    (1)分析被采集对象:公共管理学院网站新闻栏里的新闻标题以及详情页的文本信息等。

    利用开发者工具,我们可以查看标题链接代码

    在linux配置好scrapy的前提下,每次使用需要先激活虚拟环境

    cd /home/slx/venv //进入venv虚拟环境的目录

    source bin/activate //激活

    (2)创建一个新的Scrapy项目,运行下列命令

    # scrapy startproject newsbox

    (3)定义item

    (4)编写爬虫

    设置完items之后,在spiders目录下新建一个ggglnews.py文件,代码如下:

    (5)运行命令,得到数 据,并得到命名为ggglnews的xml文件

    scrapy crawl ggglnews -o ggglnews.xml

    截取部分内容显示如下:在终端显示的内容

    三、实验结果

    爬取到的十二条item数据对应新闻栏的十二条新闻消息

    四、讨论和分析

    过程中遇到的难点:定位元素并利用xpath进行路径选择

    相关文章

      网友评论

          本文标题:实验报告:采集川大公共管理学院新闻栏信息

          本文链接:https://www.haomeiwen.com/subject/iouctxtx.html