自学爬虫一月总结

作者: Wakingup88688 | 来源:发表于2017-03-31 22:40 被阅读2409次

    小白的记录,写给自己

    没有任何编程基础,C都没学过。
    花了两周多,把廖大的教程草草过了,直接跳过web部分。然后开学了。
    复习了一周数据结构。开始写爬虫。

    第一个爬虫其实是 天涯论坛。大概三周前多一点,刚学会点正则表达式(其实是最简单的(.*?)),背着大电脑到图书馆,然后对着崔庆才大神的教程鼓捣半天,最后终于弄出来了,感觉整个世界都亮了。

    第一个爬虫

    然后去爬糗事百科,接着是百度贴吧旅行贴的图片,随便输入帖子号便可打印评论和下载图片(顺便还发现了两有趣的贴)

    最开始是urllib2、re,慢慢开始学 requests、BeautifulSoup、xpath。
    期间还把《图解http》看了。

    然后在 CSDN上写博客,记录小项目。小项目前顺手加个"python 网络爬虫入门(一\二\三)",骗骗一样刚学的盆友也好增加浏览量,好吧承认我是个小心机~ _

    开始用上面的富文本编辑器,不知道为啥页面一团糟。后面注册了简书帐号,发现markdown编辑器不要太好用,简书界面也友好,爱上了。后面发现CSDN也有markdown编辑器,于是每次先在简书上排版,发布,最后复制粘贴到CSND,
    嘻嘻我简直机智~

    研究了三天多pixabay,最后做了个"图片下载神器",速度飞快。后面发现特么的获取的不是原图啊,赶紧地将大标题改成“一个简陋的下载器”,尴尬。

    获取不到高清原图当然不服气,尤其是pixabay这种高人气网站。
    然后试着破解pexels,成了。
    (为了爬外网还专门买了一个月vpn)
    原来图片API在源码里,新鲜不已。虽然单线程有些慢,终于是实际意义上的下载器。开始羞耻哒在Github上放自己的代码(说bug也行吧[小白式捂脸])。

    Pycharm这个编辑器确实很好用,就是界面太。。。于是动手修改Pycharm设置 ,改了一下午加一晚上,变成这样,个人觉得清新又护眼~

    我的Pycharm界面.png

    前阵子川大掀起“玻璃杯事件”,盛况空前。做了个爬虫爬info神回复前100条,“史上最全,拿走不谢”,抛到空间和朋友圈,小伙伴们都惊呆了,顺便骗了不少浏览量。通过这个爬虫学会了抓包,原来破解动态网页不止selenium和PhantomJS。

    也遇到很多问题,基本上是自己想+查笔记+百度+知乎+csdn+stackoverflow解决的。

    用selenium爬教务网失败。改用抓包,加上stackoverflow上偷来的奇淫巧计,顺利爬取 教务处成绩并保存至excel,仅用代码30余行。竟然开始有人浏览我写的东西,还收到几个赞,开心_

    看到好多大神爬电商、招聘网站,分析数据起来有模有样,心动了。于是去爬 拉勾网,用BDP搞了个 小型数据分析。花了一晚上分析网站,主要用到抓包和Cookies,没学到scrapy所以有一点慢。3万多数据,没见过世面的小白还有些小激动~
    做了一些图表效果还行(BDP大法吼啊)。

    不得不说用简书记录项目,还是很费时间的,不过感觉也受了不少锻炼,尤其在总结思路、逻辑编排这几个方面。通过记录项目中的问题和解决思路,加深巩固了知识点。
    </br>

    最后总结一下:

    这一个月,感觉也是断断续续,
    毕竟本专业还要上课,主要通过
    看教程、做笔记、写博文构建知识体系,通过小项目驱动学习

    首先还是有收获
    1、乐趣。发现了自己的兴趣原来在编程,爬虫简直打开了一个新世界。
    每一次爬虫,就像升级打怪,万一通关,成就感满满。(反正比做实验好玩多了)
    2、从迷茫到很忙。发现编程这一行牛人好多,自己要学的东西也好多呀。
    3、告别依赖。貌似开始学会自己独立思考、解决各种问题,有自己的想法很重要,再不济“它山之石,可以攻玉”。

    问题也不少
    1、感觉爬虫 上手快精通难,深入学习的动力貌似不足,基础存在漏洞
    2、专注度不够 效率很低,要是有大神带带就好啦
    3、写的是技术文,却发现自己貌似渐渐奔往 段子手 的路上,怎么回事?

    我可能爬的假的爬虫

    一个月的爬虫学习,算是入门了吧。
    接下来就是学习PhtomJS动态页面、模拟登录破解验证码、多线程、Scrapy及mongodb数据库等等,太多太多得慢慢来。

    不管怎么样,做自己喜欢的事情,真好。

    4月11日添:
    于4月10日,新开通知乎专栏:https://zhuanlan.zhihu.com/Waking-up
    这是后话了。

    相关文章

      网友评论

      • Elitack:对了,附带问下楼主:selenium+phantomjs是在哪学的呢?感觉网上很多教程大多太扯淡以及重复的地方太多了..
        Elitack: @Wakingup88688 get!😀
        Wakingup88688:我只学了一点点selenium哦(惭愧),不过如果学的话,推荐崔庆才大神的博客: http://cuiqingcai.com/2577.html
        http://cuiqingcai.com/2599.html
      • 我叫钱小钱:同学一个月,一起共勉:fist:
        Wakingup88688:一起加油~:blush:
      • 亮神4869:请教下楼主在学爬虫的时候,是看哪里的教程了解到先做啥,再做什么,这一步一步动作的
        亮神4869: @Wakingup88688 好的,谢谢了
        Wakingup88688: @粑粑乌粒头 对了,新开通了知乎专栏,感兴趣可以关注哦:https://zhuanlan.zhihu.com/Waking-up
        Wakingup88688: @粑粑乌粒头 前面两个项目是看着崔庆才大神的教程,后面就是完全自己摸索了。我当初想的是先文字后图片,先静态后动态,先小数据再比较大数据,先一般抓取再慢慢学点可视化,偶尔追下热点,比如SCU玻璃杯事件和张国荣。我觉得其实学爬虫不必一定抓着某个教程,只要大概跟得上,边做项目边抓知识点,慢慢就把坑填完了。
      • 造数科技:好棒哦
        Wakingup88688:@崔斯特呀 好吧:joy: 在知乎上看到的,写爬虫蛮厉害的高手
        造数科技:@Wakingup88688 哪个是谁呀
        Wakingup88688: @崔斯特呀 莫非是知乎上的崔斯特大神?😳

      本文标题:自学爬虫一月总结

      本文链接:https://www.haomeiwen.com/subject/ixedottx.html