爬取川大公管学院新闻动态

爬取川大公管学院新闻动态

作者: 嚯嘻嘻哈哈 | 来源:发表于2018-05-05 14:01 被阅读0次

爬取川大公管学院新闻动态
Scrapy采集川大公管学院新闻动态以及全职教师信息实验报告
爬取川大公管新闻实验报告
scrapy爬取学院新闻信息实例
用Scrapy采集公管学院新闻
实验报告【爬取川大公管的教师信息】
实验报告：采集川大公共管理学院新闻栏信息
Report B2 Scrapy爬取川大公管学院全职教师信息
采集川大公管学院教师信息
采集川大公管学院教师信息0529

一、实验目标

采集学院官网的新闻信息

学院官网新闻动态

内容包括

新闻标题、时间、正文

二、采集工具

八爪鱼V7.3.8

三、预期采集结果

预期采集数据结果

尽可能爬取到具有标题、时间、正文文本三个元素的新闻，将其汇总成EXCEL表格形式。

四、采集过程

步骤1 登陆八爪鱼7.0采集器→点击新建任务→自定义采集，进入到任务配置页面：然后输入网址→保存网址，系统会进入到流程设计页面并自动打开前面输入的网址。

步骤2 我们需要进行循环翻页流程，在采集的时候模拟人工点击翻页，鼠标点击在下图浏览器页面中的“下一页”按钮，在弹出的对话框中选择“循环点击下一页”；这样翻页循环就做好了。

步骤3 鼠标点击下图中第一个新闻标题：第二部”链接，这时候和右边的操作提示框中就会出现一些选项，我们选择“选中全部”选项，然后再选择“循环点击每个链接”选项即可，这样循环点击电影标题到详情页面的步骤就做好了。

设置循环点击单个链接

步骤4 鼠标点击页面中要提取的标题字段，这里标题字段就被选中了并通过红色框表示，然后在弹出的提示框中选择“采集该元素的文本”表明要采集的是页面中的文本数据，然后同样的方式选择点击浏览器中的其他字段，再选择“采集该元素的文本”

设置采集该元素文本

步骤5 这样提取完毕之后我们可以点一下流程按钮，然后修改字段名称。这里的字段名称相当于表头，便于采集时区分每个字段类别。在下面界面中修改字段名称，修改完成之后，点击“确定”保存

修改字段名称

最终审查流程，确定循环跳出等操作无误。

流程图

步骤6 点击“保存并启动”，再在弹出的对话框中选择“启动本地采集”。系统会在本地电脑上开启一个采集任务并采集数据,任务采集完毕之后会弹出一个采集结束的提示，接下来选择导出数据，这里以选择导出excel2007为例，然后点击确定. 之后选择文件存放路径，再点保存即可。这样就获取了我们最终需要的数据了。

数据显示

五、采集结果

1、整体上采集结果无大差错，共采集398条数据，基本完成任务。

2、由于第一次采集数据时选取元素出现问题，导致文本内容包含部分标题、时间等元素。

3、学院官网问题导致数据出现重复，错误比较明显，采集器可以一键清洗。

4、学院官网新闻网页有些不符合我们制定的采集规则，例如出现一些视频和其他可能使用ajax技术的页面扰乱了正常的采集过程。

相关文章

爬取川大公管学院新闻动态
一、实验目标采集学院官网的新闻信息内容包括新闻标题、时间、正文二、采集工具八爪鱼V7.3.8 三、预期采...
Scrapy采集川大公管学院新闻动态以及全职教师信息实验报告
目录： Report B1——采集川大公管学院新闻动态信息 1.确定采集内容 2.创建爬取项目 3.定义spide...
爬取川大公管新闻实验报告
实验名称：爬取川大公管新闻实验时间：2018/5/1实验人：梁福祯实验目的：运用已有的爬虫软件爬取出川大公管网站的...
scrapy爬取学院新闻信息实例
爬取工作开展思路：首先打开川大公共管理学院首页，浏览其信息确定需要爬取的信息；再使用浏览器的开发者工具，确定需要...
用Scrapy采集公管学院新闻
采集对象：四川大学公共管理学院新闻动态及内容爬取规则：用css选择器的方法来进行元素定位采集过程激活，进入虚拟...
实验报告【爬取川大公管的教师信息】
------------欢迎私信交流，觉得还不错就点个喜欢吧！♥--------------- 一、实验目标使用...
实验报告：采集川大公共管理学院新闻栏信息
一、实验目的和要求：爬取川大公共管理学院网站新闻栏里的链接，进而获取详情页信息。二、实验步骤：（1）分析被采...
Report B2 Scrapy爬取川大公管学院全职教师信息
采集目标四川大学公共管理学院所有全职教师的照片、姓名、职称、院系、邮箱、详细页的链接及简介。如下图： 1.创建...
采集川大公管学院教师信息
一、采集前的准备首先进入四川大学公共管理学院官网，查看其师资队伍师资队伍板块对教师信息的陈列方式。未来采集将从这...
采集川大公管学院教师信息0529
一、采集前准备# 在采集之前，首先进入四川大学公共管理学院的师资队伍页面查看页面显示结构，并用开发者工具“ctrl...

网友评论

本文标题：爬取川大公管学院新闻动态

本文链接：https://www.haomeiwen.com/subject/xwbsrftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|爬取川大公管学院新闻动态|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！