美文网首页Python爬虫作业
2017/4/22 一周复盘

2017/4/22 一周复盘

作者: Carpe | 来源:发表于2017-04-22 13:20 被阅读46次

    在这一周里的学习了哪些东西?

    在这一周里围绕一个小的练手项目写了四篇

    作业内容
    抓取简书七日热门数据,如果有时间加以分析http://www.jianshu.com/trending/weekly
    爬取数据字段:
    1.用户
    2.标题
    3.阅读量
    4.评论量
    5.获赞量
    6.打赏数
    7.文章发表时间
    (文章类别,来自哪个专题。选做)
    数据保存为CSV或Excel

    第一篇文章

    2017/4/18爬虫作业
    在第一篇文章中主要是运用了单线程来编写脚本,主要涉及的内容有异步加载,数据的获取,数据的写入

    第二篇文章

    2017/4/19爬虫作业
    在第二篇文章中,学习了一点scrapy,xpath, 把之前的单线程爬虫改成了用scrapy框架实现的多线程爬虫,以及对BeautifulSoup和Xpath进行了对比。

    第三篇文章

    2017/4/20 scrapy response
    在第三篇文章中所记录的,学习任务是获取每篇文章的被收录的专题,和一些更具体的内容,在这一过程中,对scrapy进一步的了解,针对于如何获取链接和跳转到该链接爬取的,深度为2的网页的爬取,对于scrapy的原理,response的传递,start_request的构建有了一点了解,以及对于特殊的数据获取---json的解析。

    第四篇文章

    2017/4/21 七日热门数据分析
    在这一天中的学习内容是对于七日热门进行了简略地分析,所涉及的知识点是Jieba分词的简单运用,以及对一些数据进行更加合理的处理对比。

    大致总结

    一周里自己所学习的深度还是不够,只是停留在如何用,至于其原理并没有去理解,用得都是稀里糊涂。对比了一下,看似一开始去探究原理很费时间,也不能很好地理解,还不如直接用,省时间,但是越到后面,不理解原理越做就越空,反而花了很多时间还是无法去解决所面临的问题。

    相关文章

      网友评论

        本文标题:2017/4/22 一周复盘

        本文链接:https://www.haomeiwen.com/subject/pelszttx.html