爬取curlie的实验报告

爬取curlie的实验报告

作者: 嚯嘻嘻哈哈 | 来源:发表于2018-05-21 11:40 被阅读0次

爬取curlie的实验报告
scrapy 爬取Curlie实验报告
实验报告【爬取Curlie网站信息】
实验报告：Curlie-Recreation分类网站信息爬取
实验报告：Dmoz—Business信息爬取
DMOZ爬取实验报告
IR08-四川大学公共管理学院新闻数据采集实验报告
爬取川大公管新闻实验报告
python-爬虫学习（文字、图片、视频）
python爬虫学习（文字、图片、视频）

一、实验目标

爬取curlie中health的目录及其收录网站资源，网站的字段包括标题、网址、摘要。

All Sites

二、采集工具

python 3.6.1

scrapy 1.5.0

三、采集过程

1.爬取health页面下的sites

建立scrapy项目，爬取curlie网站health页面的sites，爬取sites的标题、链接和摘要。所以先修改items.py文件。

爬取health页面的sites，限制爬虫爬取范围和seeds

运行爬虫后，爬取成功

2.遍历health目录

爬取成功后，分析到health下子目录页面布局和health页面布局相同，所以打算递归遍历整个health目录，每个页面执行sites爬取操作。

运行爬虫后出错，百度之后，发现没有导入request

运行后爬取成功

成功之后，准备加上每条数据的目录。我们设想的是将curlie网页最上方的目录导航爬取下来

爬取后发现最后一级目录无法爬取下来，所以修改了代码

爬取后，发现目录有空格。

爬取后发现最后一级目录还是爬不下来，所以我们改换了思路，直接从当前页面URL提取目录

四、爬取结果

爬取数据文件显示（点击）

五、代码

相关文章

爬取curlie的实验报告
一、实验目标爬取curlie中health的目录及其收录网站资源，网站的字段包括标题、网址、摘要。二、采集工具...
scrapy 爬取Curlie实验报告
（代码文件链接见第六点） 1.实验目的本次实验是为了掌握scrapy爬取层级网站信息的技巧。 2.实验要求使用...
实验报告【爬取Curlie网站信息】
一、实验目标使用scrapy框架采集Curlie网站下Kids_and_Teens的分类子目录结构以及此分类下所...
实验报告：Curlie-Recreation分类网站信息爬取
1 实验目的和要求爬取Curlie.org网站Recreation分类下所有的网站信息（包括标题、链接和网站介绍...
实验报告：Dmoz—Business信息爬取
实验报告：Dmoz—Business信息爬取一.实验目的和要求爬取www.dmoz.org网站...
DMOZ爬取实验报告
一. 实验目的及要求熟悉scrapy爬虫框架掌握使用Chrome开发者工具找到HTML节点的XPATH路径或者...
IR08-四川大学公共管理学院新闻数据采集实验报告
文章结构：实验主题、实验工具、实验过程、错误报告与错误分析、小组个人利用scrapy爬取教师信息实验报告一. 实...
爬取川大公管新闻实验报告
实验名称：爬取川大公管新闻实验时间：2018/5/1实验人：梁福祯实验目的：运用已有的爬虫软件爬取出川大公管网站的...
python-爬虫学习（文字、图片、视频）
爬虫-文字爬取爬虫-图片爬取爬虫-视频爬取
python爬虫学习（文字、图片、视频）
爬虫-文字爬取爬虫-图片爬取爬虫-视频爬取

网友评论

本文标题：爬取curlie的实验报告

本文链接：https://www.haomeiwen.com/subject/wbdxjftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|爬取curlie的实验报告|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！