美文网首页
我的第一条爬虫

我的第一条爬虫

作者: 爱秋刀鱼的猫 | 来源:发表于2018-01-09 19:50 被阅读0次

一直都知道爬虫很厉害,也一直都想学,但是也一直拖到现在才开始写。终于终于,今天写了第一条爬虫,开心:D非常感谢莫烦。一激动就决定“赞助”一下我们的“莫烦”大哥。所有的代码 莫烦PYTHON上面都有,我也不当搬运工了。今天还是想在这个学术的,神圣的地方撒撒鸡汤。
2018年已经过去9天了。现在觉着这句话很对“小时候觉得时间过得很慢,过了二十几岁以后,感觉时间真的是转瞬即逝。”18年,17年,每次在两年交接的时候就会傻傻分不清到底是哪一年。所以最近在写日期的时候写成2017年* 月 *日。也许是一种惯性。
惯性不知道算不算是一种“拖延”。因为我觉得自己的拖延症越来越严重了。算是今天写了爬虫的代码的一点感想吧。我发现其实你真正动身去做的时候,很多事情真的没有你想象得那么难。
我之前也尝试过写过,每一次在吹起号角的时候就败下阵来。有时候是士气低迷,有时候是战靴的鞋带没有绑好,有时候是不知道敌人在哪里。
我有很多事情需要去做。但是我常常花太多的时间在“准备”->"放弃"做这些事情上。也可能是,我没有找到做一件事情对的路子。
所以还是特别特别感谢“莫烦大神”,对于带我入门这件事情上,他帮了我很多。比如写爬虫这件事情,首先你要知道学习这个有什么用处,知道:

第一,你为什么要学。

莫烦在视频里show了一下他自己做的悉尼各个区域的租房价格的表格。这一下子就让我有了学习的兴趣。因为毕业以后,我也会租房子,我要是可以像他一样爬取房租数据,一定是一件很cool的事情。所以我决定一定要学爬虫。

第二,要知道你面对的“敌人”是谁

对于爬虫而言,它要爬取的是网页,所以你要大概了解一下网页的大体结构。 是不是很简单易懂

但其实网页的结构是一件很复杂很复杂的事情,我之前也学过一段时间,真的超级复杂。我觉得它就是一个没什么逻辑性的东西。要是搁以前,我估计学到这里,又会钻到这个“大天坑”里,然后捣鼓一段时间,最后放弃。莫烦告诉我们,学习爬虫,你不需要对css语法,html语法有太多的了解,知道个大概就可以了。把我又拉回来一次。

第三,怎么"打"

兵器是什么?工欲善其事,必先利其器。剖析网页python有一利器就是BeautifulSoup。我之前自己看书也看过,但是觉得看和没看没有两样。直到莫烦一句简单明了的话,给BeautifulSoup一个定位:

我们总结一下爬网页的流程, 让你对 BeautifulSoup 有一个更好的定位.
1. 选着要爬的网址 (url)
2. 使用 python 登录上这个网址 (urlopen等)
3. 读取网页信息 (read() 出来)
4. 将读取的信息放入 BeautifulSoup
使用 BeautifulSoup 选取 tag 信息等 (代替正则表达式)

html = urlopen(url).read().decode('utf-8')
soup = BeautifulSoup(html,features='lxml')

你可以想象一下,用python登入然后读取出来的网页内容html,经过BeautifulSoup 的“手”,就变成了一道美味的soup啦。
这碗soup里,要什么有什么。你想要<h1>标签的内容

head = soup.find('h1').get_text()

大概的爬虫就是这样一个过程。但是为了更好地击败敌人,兵不厌诈,还需要一些战术。

第四,奇门遁甲

就是我们的正则表达式。这个东西,我之前也学过。但是,用得迷迷糊糊的。(我发现,我看过的东西是挺多的,但是都很零碎,所以很容易就忘)这一次,看了莫烦的教程,然后自己再回忆一下,觉得正则表达式也没有那么复杂了。可能也是读书百遍,其义自现吧。 小抄
img_links = soup.find_all('img',{'src':re.compile(".*?\.jpg")})

利用正则表达式可以找出格式为jpg的图片链接。

第五 ,养兵千日 用兵一时

上面讲到大概就是一个简答爬虫的流程。然后就开始爬简答的百度词条。
代码见 莫烦PYTHON或者是我的github

我的结果 很简单的一个爬虫程序,我知道啥也不是。但是对于我而言,却是一大步。爬虫刚刚孵出,还需要很长的时间去改进。我也会一直更新我的爬虫日记,让它越来越强大!

相关文章

  • 爬虫成长日记-爬取图片

    上一篇文章,我有了自己的第一条爬虫。就像打怪升级一样,爬虫也会慢慢地成长,学到新本领。今天,我的爬虫就学会了爬取“...

  • 我的第一条爬虫

    一直都知道爬虫很厉害,也一直都想学,但是也一直拖到现在才开始写。终于终于,今天写了第一条爬虫,开心:D非常感谢莫烦...

  • Python抓取微信公众号全部文章

    这是我第一条写关于爬虫的文章 一、抓取微信公众号的文章有如下几点需要注意的地方 1、利用微信接口进行抓取,每天-每...

  • Python 网络爬虫(一)

    网络爬虫的基本介绍 学习爬虫,我想主要从以下几个方面来切入 -爬虫的原理? -爬虫的作用? -爬虫的实现? -爬虫...

  • 认识爬虫

    前言 我的爬虫笔记 经常看别人通过爬虫分析数据,很有意思,来了兴趣,就开始了爬虫之路。 爬虫 爬虫,即网络爬虫,大...

  • [运营复盘] 10小时招募结束,我的收费群是如何完成冷启动的

    从周五下午5:40发出第一条信息,到周日中午12:30结束,『Python爬虫小分队 』学习付费群,完成招募。 没...

  • Python爬虫入门,5分钟了解思路,这是我见过最简单的基础教学

    如果学会了python的基本语法,我认为入门爬虫是很容易的。 1:什么是爬虫 爬虫(spider,又网络爬虫),是...

  • 爬虫入门基础

    Day01 一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫...

  • 11.20-11.26

    本周目标 爬虫 爬虫 爬虫 爬虫

  • 01-认识爬虫

    一、爬虫介绍 什么是爬虫 Python爬虫的优势 Python爬虫需要掌握什么 爬虫与反爬虫与反反爬虫三角之争 网...

网友评论

      本文标题:我的第一条爬虫

      本文链接:https://www.haomeiwen.com/subject/aolgnxtx.html