美文网首页解密大数据
爬虫入门02作业

爬虫入门02作业

作者: mudu86 | 来源:发表于2017-07-13 11:07 被阅读49次

    作业:

    • 选择简书“解密大数据”专题里面上次爬虫作业的文档地址作为分析页面。
    • 分析并提交该页面结构分析与元素标签位置信息。

    1. 对页面元素进行编号,根据编号的顺序进行描述。
    第二次作业图.jpg

    2 . 如上图所示:
    1 . 编号1——左上角简书标签

    对应代码:
    ![](./爬虫入门01作业 - 简书_files/logo-58fd04f6f0de908401aa561cda6a0688.png)
    

    2 . 编号2—— 发现、关注、消息

         发现对应代码:
         <li class="">
         <a href="http://www.jianshu.com/">
         <span class="menu-text">发现</span>
         <i class="iconfont ic-navigation-discover menu-icon"></i>
         </a>  
         </li>
         关注对应代码:
         <li class="">
         <a href="http://www.jianshu.com/subscriptions">
         <span class="menu-text">关注</span>
         <i class="iconfont ic-navigation-follow menu-icon"></i>
         </a>           
          </li>
          消息对应代码:
          <a data-hover="dropdown" href="http://www.jianshu.com/notifications" class="notification-btn"><span class="menu-text">消息</span> <i class="iconfont ic-navigation-notification menu-icon"></i> <!----> <!----></a>
    

    3 . 编号3——搜索对话框

    <input type="text" name="q" id="q" value="" placeholder="搜索" 
    class="search-input">
    

    4 . 编号4——写文章按钮

    <a class="btn write-btn" target="_blank" href="/writer#/">
    <i class="iconfont ic-write"></i>写文章</a>
    

    5 . 编号5——标题:爬虫入门01作业

    <h1 class="title">爬虫入门01作业</h1>
    

    6 . 编号6——作者框和用户名

    作者框:<span class="tag">作者</span>
    用户名:<span class="name"><a href="/u/99cd79c6cb07">mudu86</a></span>
    

    7 . 编号7——信息:日期,字数、阅读量、评论数、喜欢、赞赏

     <span class="publish-time" data-toggle="tooltip" data-placement="bottom" title="" data-original-title="最后编辑于 2017.07.03 14:26">2017.07.03 12:25*</span>
     <span class="wordage">字数 636</span>
     < <span class="views-count">阅读 24</span>
    <span class="comments-count">评论 2</span>
    <span class="likes-count">喜欢 4</span>
     <span class="rewards-count ">赞赏 1</span></div>
    

    8 .编号8——文章编辑按钮

    <a href="/writer#/notebooks/14029055/notes/14139962" target="_blank" class="edit">编辑          > 文章</a>
    

    9 . 编号9——正文

        <div class="show-content">
              <h3>课堂作业</h3>
        <ul>
        <li>
        <p>要爬取的数据类别</p>
        </li>
        <li>
        <p>对应的数据源网站</p>
        </li>
        <li>
        <p>爬取数据的URL</p>
        </li>
        <li>
        <p>数据筛选规则(选做)</p>
        </li>
        </ul>
        <h4>要爬取的数据类型</h4>
        <p>我对金融行业中股票的信息感兴趣,想要依次作为决策的依据,因此想要爬取股票信息,主要获取的股票信息有:季报、半年包、年报、公司重大公告、国家宏观金融政策、股价、成交量、龙虎榜数据、实时热点。</p>
        <h4>对应的数据源网站</h4>
        <ol>
        <li>三大证券报:<ul>
        <li><a href="http://cs.com.cn/" target="_blank">中国证券报</a></li>
        <li><a href="http://www.cnstock.com/" target="_blank">上海证券报</a></li>
        <li><a href="http://www.stcn.com/" target="_blank">证券时报</a></li>
        </ul>
        </li>
        <li>两大官方网站:<ul>
        <li><a href="http://www.sse.com.cn/" target="_blank">上海证券交易所</a></li>
        <li>
        <a href="http://www.szse.cn/" target="_blank">上海证券交易所]</a> </li>
        </ul>
        </li>
        <li>最大信息发布网站:<ul>
        <li><a href="http://www.cninfo.com.cn/cninfo-new/index" target="_blank">巨潮咨询网</a></li>
        </ul>
        </li>
        <li>财经新闻网站:<ul>
        <li><a href="http://www.eastmoney.com/" target="_blank">东方财富网</a></li>
        </ul>
        </li>
        <li>股票论坛:<ul>
        <li><a href="https://xueqiu.com/" target="_blank">雪球网</a></li>
        </ul>
        </li>
        </ol>
        <h4>爬取数据的URL</h4>
        <ol>
        <li>三大证券报:<ul>
        <li>中国证券报 : <a href="http://www.cs.com.cn/gppd/" target="_blank">http://www.cs.com.cn/gppd/</a>
        </li>
        <li>上海证券报 :<a href="http://ggjd.cnstock.com/gglist/search/ggkx%E3%80%81http://news.cnstock.com/bwsd/index.html" target="_blank">http://ggjd.cnstock.com/gglist/search/ggkx、http://news.cnstock.com/bwsd/index.html</a>
        </li>
        <li>证券时报 :<a href="http://data.stcn.com/" target="_blank">http://data.stcn.com/</a>
        </li>
        </ul>
        </li>
        <li>两大官方网站:<ul>
        <li>上海证券交易所 :<a href="http://www.sse.com.cn/disclosure/overview/" target="_blank">http://www.sse.com.cn/disclosure/overview/</a>
        </li>
        <li>深圳证券交易所 :<a href="http://www.szse.cn/main/disclosure/" target="_blank">http://www.szse.cn/main/disclosure/</a>
        </li>
        </ul>
        </li>
        <li>最大信息发布网站:<ul>
        <li>巨潮咨询网 :<a href="http://www.cninfo.com.cn/cninfo-new/index" target="_blank">http://www.cninfo.com.cn/cninfo-new/index</a>
        </li>
        </ul>
        </li>
        <li>财经新闻网站:<ul>
        <li>东方财富网 : <a href="http://stock.eastmoney.com/report.html%E3%80%81http://stock.eastmoney.com/bidu.html" target="_blank">http://stock.eastmoney.com/report.html、http://stock.eastmoney.com/bidu.html</a> </li>
        </ul>
        </li>
        <li>股票论坛:<ul>
        <li>雪球网 : <a href="https://xueqiu.com/hq" target="_blank">https://xueqiu.com/hq</a>
        </li>
        </ul>
        </li>
        </ol>
        <h4>数据筛选规则</h4>
        <p>股票消息分为:实时性和非实时性的消息,因此要分2种方式设定规则。</p>
        <ul>
        <li>
        <p>实时性消息: 每20分钟刷新一次网站采集的数据,如果采集的数据中有自己设置的关键词(例如:突发重大新闻,自己关心的股票,涨幅超过5%),提取相应的信息。</p>
        </li>
        <li>
        <p>非实时性消息:每年发布季报、半年报、年报的日期,爬取上海证券交易所、深圳证券交易所、巨潮咨询网中每个公司发布的年报摘要,如果有自己设置的关键词(营业额年增长率超过50%、营业利润率超过20%),提取对应的公司信息。每日爬取雪球网中行情排行榜、热度排行榜、讨论排行榜中上榜的股票,并通过每周上榜股票的次数。</p>
        </li>
        </ul>
        </div>
    

    10.解析正文结构:

    • 标题:三级标题——课堂作业。
    <h3> 课堂作业 </h3>
    
    • 无序序列:要爬取的数据类别、对应的数据源网站、爬取数据的URL、数据筛选规则
    <ul>
    <li>
    <p>要爬取的数据类别</p>
    </li>
    <li>
    <p>对应的数据源网站</p>
    </li>
    <li>
    <p>爬取数据的URL</p>
    </li>
    <li>
    <p>数据筛选规则(选做)</p>
    </li>
    </ul>
    
    • 标题:四级标题——要爬取的数据类型
    <h4>要爬取的数据类型</h4>
    ``
    - 段落标签:
    

    <p>我对金融行业中股票的信息感兴趣,想要依次作为决策的依据,因此想要爬取股票信息,主要获取的股票信息有:季报、半年包、年报、公司重大公告、国家宏观金融政策、股价、成交量、龙虎榜数据、实时热点。</p>

    - 有序序列和无序序列混合:
        - 有序序列——三大证券报、两大官方网站、最大信息发布网站、财经新闻网站
        - 无序序列——三大证券报中中国证券报、上海证券报、证券时报
    
    

    无序序列

    <ul>
    <li><a href="http://cs.com.cn/" target="_blank">中国证券报</a></li>
    <li><a href="http://www.cnstock.com/" target="_blank">上海证券报</a></li>
    <li><a href="http://www.stcn.com/" target="_blank">证券时报</a></li>
    </ul>


    有序序列

    <ol>
    <li>三大证券报:
    <li>两大官方网站:
    <li>最大信息发布网站:
    <li>财经新闻网站:
    </ol>


    有序和无序混合

    <ol>
    <li>三大证券报:<ul>
    <li><a href="http://cs.com.cn/" target="_blank">中国证券报</a></li>
    <li><a href="http://www.cnstock.com/" target="_blank">上海证券报</a></li>
    <li><a href="http://www.stcn.com/" target="_blank">证券时报</a></li>
    </ul>
    </li>
    <li>两大官方网站:<ul>
    <li><a href="http://www.sse.com.cn/" target="_blank">上海证券交易所</a></li>
    <li>
    <a href="http://www.szse.cn/" target="_blank">上海证券交易所]</a> </li>
    </ul>
    </li>
    <li>最大信息发布网站:<ul>
    <li><a href="http://www.cninfo.com.cn/cninfo-new/index" target="_blank">巨潮咨询网</a></li>
    </ul>
    </li>
    <li>财经新闻网站:<ul>
    <li><a href="http://www.eastmoney.com/" target="_blank">东方财富网</a></li>
    </ul>
    </li>
    <li>股票论坛:<ul>
    <li><a href="https://xueqiu.com/" target="_blank">雪球网</a></li>
    </ul>
    </li>
    </ol>

    相关文章

      网友评论

        本文标题:爬虫入门02作业

        本文链接:https://www.haomeiwen.com/subject/delwhxtx.html