美文网首页解密大数据
爬虫第二次作业-0706

爬虫第二次作业-0706

作者: 孤单不孤单 | 来源:发表于2017-07-08 16:23 被阅读69次

感谢曾老师耐心的讲解和细致的回答。

本次课的作业如下:

选择简书“解密大数据”专题里上次爬虫课的作业文档地址作为分析页面,分析并提交该页面的网页结构与元素标签位置信息。


前言

作为一个技术小白,其实还是蛮难分得清F12在各个浏览器上表现的不同的。还好曾老师推荐了Firefox,果然画风亲民,本次课业便拜托它了。


答题前先做题目分解:

1.目标页面:简书“解密大数据”专题里上次爬虫课的作业文档地址(http://www.jianshu.com/p/673b768c6084)

2.分析此页面结构

3.分析元素标签位置信息

4.使用工具:Firefox


1.导入目标页面

目标页面一共有三张截图,请一定要原谅技术小白不会截整页那种长图 /(ㄒoㄒ)/~~

页面结构_1 页面结构_2 页面结构_3

2.分析此页面结构

此页面大体分为5部分,分别是:

①写死不随页面滚动而滚动的 -- 顶部栏、侧边栏

②文章信息部分 -- 此部分共分为三块,一块在顶部(图1的④),包含文章名称和文章基础信息(作者、发表时间、字数、阅读情况)。第二块在中底部(图2的③),包含文章基础信息(作者、发表时间、字数、阅读情况)。第三块在底部(图3的③),包含文章收录情况。

③正文

④评论区

⑤推荐区

3.分析元素标签位置信息

全局顶部导航栏

用<nav></nav>括起来的元素是全局顶部导航栏

其中:,因logo支持链接跳转主页,所以在<img>上面会有<a></a>括起来的链接

全局顶部导航栏

"note"类

“note”类一共分为两个子类 “post” 和 “side-tool” ,分别为文章内容和右侧导航栏。

“note”类

随想:如果想抓取文章的标题,是不是按照 “note” - “post” - “article” - “title” 路径进行抓取就可以了?

小结

本次的作业差不多也就这样了,其实越写到后面思路越清晰,直到在画 “note” 类的树图时才意识到其实第一题在写分块的时候技术白的思想是有多不成熟。不过还是不改了,以此来记录思想进步的过程也不错,哈。本次作业的收获是:眼睛看到的结构并不是真实的结构,还是要先看代码再下判断。嗯。

相关文章

  • 爬虫第二次作业-0706

    感谢曾老师耐心的讲解和细致的回答。 本次课的作业如下: 选择简书“解密大数据”专题里上次爬虫课的作业文档地址作为分...

  • 爬虫第三次作业-0706

    感谢曾老师耐心的讲解和细致的回答。 本次作业主要还是为了让我们来熟悉爬虫代码,仅进行了执行部分的修改。虽然全程代码...

  • 有种影子你一定看着眼熟

    李克富 || 有种“社会化不足”叫“没有长大” - 简书 --25/90李克富点评训练营(0706) 作业:(3)...

  • python猫眼电影爬虫+Django+Echarts图表

    一.爬虫作业:抓取猫眼电影网站数据 二.Django+echarts图表 三.爬虫和django代码 猫眼爬虫gi...

  • 不正思维 不正问 第四课堂感悟,彩云

    ——0706 彩云 本节课核心在反复阐述“无常”、“无我”...

  • 0706

    今天是这周最累的一天,去了好几个地方要资源,今天体会到自己一个人要资源的乐趣。 希望明天比今天努力一点点。

  • 0706

    1、七月就这样来了,八月就在不远处,八月是夏天的尾巴,这意味着炎热快要终结了。 2、60分钟的听力训练,ok。St...

  • 0706

    P22-P39,第3章,出生顺序的重要性。这是让人耳目一新的文章,原来出生顺序对孩子的性格有这么大的影响。 把文章...

  • 0706

    我脏 恶心 不是脏与恶心 而是不知道自己有什么价值 可以做什么事情。 真的 觉得自己很low 自己很没用,low ...

  • 0706

    姨妈推迟的第二天,天气凉爽。 有一股看什么都想说句去你妈的劲,又有点忧郁惆怅,下辈子做个男的。 番茄意面酱倒了半罐...

网友评论

    本文标题:爬虫第二次作业-0706

    本文链接:https://www.haomeiwen.com/subject/kyndhxtx.html