美文网首页为了更好的活着iOS开发指南程序员
零基础三天学会Python爬虫 -- 龙头

零基础三天学会Python爬虫 -- 龙头

作者: Pusswzy | 来源:发表于2017-06-05 11:51 被阅读2601次
教我女朋友学习爬虫

最近iOS方面没有开发任务, 老板给了我两周的时间学习爬虫. 期间踩了无数的坑. 终于算是可以在爬虫方面有所小成, 在学习阶段很感谢各种大神的技术文章对我的帮助. 可是如果你是小白的话, 这些技术文章的阅读难度会比较大. 可能会导致在学习阶段在环境配置, IDE选择, 初始爬虫上浪费很多时间.
所以这系列文章会在细节上特别重视. 我的主旨就是我踩过的坑, 就不会让你们再踩了.☺

学习目标

三天时间学会对任一网页的爬虫, 熟练应对反爬虫机制. 并对数据匹配, 数据保存, 数据可视化有充分的了解. 熟悉爬虫基本原理, 熟悉爬虫框架的运行.我会在文章中用很多的小项目来帮助你们.

学习大纲

  • 熟悉Python基本语法
  • 数据流行的框架使用:requests/scrapy等等 框架只是工具
  • 熟悉IDE的使用 sublime text/ pycharm
  • 数据匹配:正则匹配与XPath语法在爬虫中的使用
  • 数据保存: 将爬取数据保存到Excel或者保存为json字符串
  • 反爬虫机制: delay函数随机请求头, 注入cookie, IP代理池
  • ...

闲言碎语

  • Python2与Python3的选择:Python2在2020年会过期,现在Python3已经很稳定了.
    如果你是Python的新手,我建议你从Python3开始学习.如果你想通过学习Python, 来找到工作, 我建议你从Python2学起, 因为现在有很多公司的项目还是Python2.X的版本.
    其实我认为学习一门语言对于版本这种东西真的是无所谓了, 学东西就应该融会贯通, 本文的代码环境皆为Python3
    而且我认为p2与p3最大的区别就是print函数带不带小括号,哈哈
  • 知乎上面有一些很好的文章, 推荐大家在学习本文前可以看看.
    如何入门爬虫
    爬虫入门文章汇总
    利用爬虫技术能做到哪些很酷很有趣很有用的事情?

1.基本语法

学习任何一门语言, 必须先学会它的基本语法, 这里我推荐廖雪峰的Python教程
廖雪峰Python教程
进入网站你会发现目录那么长, 该怎么看. 其实你只需要看这么多即可开始爬虫, 是不是很开心~

只需要看这么多即可进行爬虫, 红色箭头重点看

2.开发环境

现在你已经学会Python的基本语法了, 也已经在shell里面练习了, 工欲善其事, 必先利其器. 有一个高效顺手的开发环境是很重要的.

2.1 下载python3

mac自带的Python版本为2.x, 在终端输入python --version即可查看当前python的版本.

更新至Python3很简单, 首先下载Homebrew, 在终端输入

/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

来安装Homebrew, 安装后直接通过命令brew install python3即可.现在你可以输入python3 --version来查看你的python3版本.

2.2 下载sublime text

通过sublime的官方网址进行下载,

2.3 使用与配置sublime text

首先在右下角选择语言环境Python

选择语言环境
接下来就可以打出第一行代码print('hi python'), 接下来按住command+B编译. 你会发现console区报错如下/usr/local/bin/python3: can't find '__main__' module in '', 原因是没有保存就直接运行了. 所以我们要先command+S进行保存, 然后在运行就可以了. 在sublime text运行Python, 记得要先保存
在sublime中输入汉字:

在编译器中输入print('心有猛虎'), 编译后会发现报错

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)

原因是Python采用ASCII处理字符流, 当字符流不属于ASCII范围内时就会抛出该异常.解决方法是添加一个适用于Python3+适配中文环境的build system.
点击上方菜单栏中的Tools -> Build System -> New Build System, 就会打开一个untitled.sublime-build文件,


添加build system

将以下代码拷贝进去

{
    "cmd": ["/usr/local/bin/python3", "-u", "$file"],
    "file_regex": "^[ ]*File \"(...*?)\", line ([0-9]*)",
    "selector": "source.python",
    "env": {"LANG": "en_US.UTF-8"}
} 

并保存[最后赋予一个有意思的名字, 例如我的是python-CN], 再次点开Build System就能看见刚刚保存的build system了. 选中后再次运行刚才的文件, 就可以print出中文了.


细嗅蔷薇
如何修改已经保存的Build System:

顶部菜单栏点击Sublime Text -> Preferences -> Browse Packages -> Packages ->User 双击打开想要修改的Build System即可

修改已保存的Build System
在学两个小技术点, 就可以开始我们的第一个爬虫了, 挺住
2.4 正则表达式RegEx

这里我只讲最浅显的部分, 我之前对正则表达式特别陌生, 可是我只学了两分钟就可以用re来进行数据匹配了, 我讲的知识足够支持我们到学XPath语法之前了.
先简单的看一下这篇文章来了解下正则表达式, 看一下这篇文章来了解一下贪婪模式与非贪婪模式.
简单的说一下贪婪与非贪婪模式, 贪婪模式就是尽可能多的匹配到满足条件的内容, 非贪婪模式模式与之相反. 在爬虫中, 我们一般使用非贪婪模式.
接下来举个例子, 下面是一段HTML, 该如何使用re来得到里面的段子呢?

<div class="content">
<span>哥们结婚彩礼拿了十几万。女方买彩礼花了几万。剩下的几万。老丈人买了十几条大狗,当初哥们特别不解,现在知道了,只要敢惹媳妇生气。媳妇就回娘家牵回来几条,追着哥们满村跑。</span>
</div>
  • 首先引用re的模块, import re
  • 使用re的匹配函数, re.findall(pattern, string[, flags]), 此函数有三个参数, 第一个参数为匹配规则pattern, 第二个匹配参数string为匹配的内容, 第三个函数可以对正则匹配规则有一定影响,一般我们会使用re.S, 好让'.'可以匹配换行符. 这个函数会返回一个list, 包含所有符合规则的匹配内容.

re.L(re.LOCALE)
让\w、\W、\b、\B、\s和\S依赖当前的locale。
re.M(re.MULTILINE)
影响''和'$'的行为,指定了以后,''会增加匹配每行的开始(也就是换行符后的位置);'$'会增加匹配每行的结束(也就是换行符前的位置)。
re.S(re.DOTALL)
影响'.'的行为,平时'.'匹配除换行符以外的所有字符,指定了本标志以后,也可以匹配换行符。
re.U(re.UNICODE)
让\w、\W、\b、\B、\d、\D、\s和\S依赖Unicode库。

  • 如何写匹配规则: 其实就是三个符号.*?, 这三个符号代表的是以非贪婪模式匹配抛去换行符的所有字符串. 比如我想拿到"零基础学习爬虫"123456双引号中的内容, 就可以写"(.*?)".*?来匹配到所需内容.
    上面的pattern中有两个.*?, 他们的区别为一个带括号和一个不带括号, 你可以这么理解, 带括号包含的就是我们所需的内容, 会通过re.findall返回到list中, 因为我们只需要双引号中的内容(零基础学习爬虫), 双引号后面的数字(123456)对我们来说是无效内容, 所以第二个.*?无需带括号.

现在懂得如何获取例子中的笑话了么? 代码如下:

import re

HTML = '<div class="content"><span>哥们结婚彩礼拿了十几万。女方买彩礼花了几万。剩下的几万。老丈人买了十几条大狗,当初哥们特别不解,现在知道了,只要敢惹媳妇生气。媳妇就回娘家牵回来几条,追着哥们满村跑。</span></div>'
pattern = '<div.*?><span>(.*?)</.*?></div>'
# resutl是一个list
result = re.findall(pattern, HTML, re.S)
print(result[0])
2.5 requests

爬虫可以大致分为三步:爬取源数据, 过滤数据, 保存数据.
requests就是实现第一步的神器, requests可以像url发送请求, 并将相应数据呈现给你.
requests主页
>>>必看:一篇介绍requests的博客, 写的很好

安装requests######
  • 首先安装pip, 一会我们安装框架基本都会通过pip. Mac下自带easy install, 在终端输入sudo easy_install pip�, 输入你的电脑密码(在终端中输入密码不会显示)即可安装成功.
  • 使用pip来安装requests, 在终端中输入sudo pip3 install requests, 如果为Python2.X版本安装, 则输入sudo pip install requests
使用requests######

首先在sublime text中导入import requests
然后尝试获取某个网页的源码, 这里我们使用简书首页为例子r = requests.get('http://www.jianshu.com')
现在我们有一个response对象, 我们可以从这个对象中获取我们所需的所有内容.[详细语法看上面的那篇博客]
print(r.text)就可以打印出简书首页的HTML源码. Requests会自动解码来自服务器的内容. 大多数unicode字符集都能被无缝地解码.
请求发出后,Requests会基于HTTP头部对响应的编码作出有根据的推测. 当你访问r.text 之时,Requests会使用其推测的文本编码. 你可以找出Requests使用了什么编码,并且能够使用 r.encoding 属性来改变它:

>>> r.encoding
'utf-8'
>>> r.encoding = 'ISO-8859-1'

如果你改变了编码,每当你访问 r.text ,Request都将会使用 r.encoding 的新值.
所以我们获取网页的源码很简单, 就是一行代码

r = requests.get(URL)

接下来就开始我们的第一个项目了

3.项目实战

我们项目实战为爬取糗事百科热门段子中的前10页, 为什么很多教程都会选择糗事百科来作为爬虫教程呢? 因为糗事百科无需登录, 源码结构性强, 学习曲线平缓, 很适合作为我们第一个爬虫练习项目.

获取糗事百科网页源码######

导入re与requests模块, 使用requests发送get请求获取网页源码

import requests
import re

def start_spider():
    r = requests.get('https://www.qiushibaike.com/8hr/page/1')
    print(r.text)

start_spider()
# def是python中定义函数的.如果这里看不懂def的含义, 请往上翻到1.基本语法那里好好学习.

这样我们就可以获取到糗事百科热门第一页的源码了.

糗百第一页HTML
根据网页源码匹配出我们所需的段子######

使用Safari或者Chrome打开糗事百科, 按command+option+I打开web检查器, 点击元素/elements即可查看网页源代码.
爬取这种网页时, 相似的数据会有相同的属性来包裹. 例如我们想爬取第一页的段子, 那么我们先找到所有段子的相同点. 鼠标悬停在一个段子上, 右键检查元素.在下方的检查器中会发现所有的段子都被包裹在class='article block untagged mb15'的div标签中了.

找出爬取数据的相同点

展开标签, 发现段子在class="content"的标签中.


段子

我们现在就可以使用正则来匹配本页所有的段子了

import requests
import re

def start_spider():
    # 获取糗事百科源代码
    r = requests.get('https://www.qiushibaike.com/8hr/page/1')
    
    # 使用正则获取热门中的所有段子
    pattern = '<div.*?class="article block untagged mb15".*?>.*?<.*?class="content">.*?<span>(.*?)</span>.*?</div>' 
    duanzi_list = re.findall(pattern, r.text, re.S)
    print(duanzi_list)

start_spider()
duanzi_list保存着本页所有的段子
现在段子黏连的太紧而且还有一些
标签和&quot, 需要对段子进行过滤.
# 对段子进行过滤
    num = 1
    for duanzi in duanzi_list:
        filter_duanzi = re.sub('<br/>|&quot', '', duanzi)
        print(str(num) + '.' + filter_duanzi + '\n')
        num += 1
输出过滤后的段子

这样是不是就看着好多了?

对获取到的段子进行保存######

对段子的保存暂时用不到数据库或者Excel, 只需要将段子保存为一个txt文件即可, 我现在介绍一下在Python中对文件操作的open函数.

open(name[,mode[,buffering]])
name表示文件名, mode表示读写模式, buffering是一个可选参数.
读写模式:r只读, r+读写, w新建(会覆盖原有文件), a追加.

    # 对段子进行过滤
    num = 1
    for duanzi in duanzi_list:
        filter_duanzi = re.sub('<br/>|&quot', '', duanzi)
        print(str(num) + '.' + filter_duanzi + '\n')

        # 保存数据
        with open('糗事.txt', 'a', encoding ='utf-8') as f:
                f.write(str(num) + '.' + filter_duanzi + '\n\n\n')

        num += 1

只需要添加两行代码, 即可将数据保存到txt文件中. txt文件会保存在与代码同级的根目录中, 打开看一看你的成果把~

成果

这样子你的第一个爬虫就已经成功了, 虽然还有很多不足的地方, 例如只能爬取第一页, 没有交互等等. 这些优化我都会在下个文章中交给大家的~ 下课!

所有代码:

import requests
import re

def start_spider():
    # 获取糗事百科源代码
    r = requests.get('https://www.qiushibaike.com/8hr/page/1')
    
    # 使用正则获取热门中的所有段子
    pattern = '<div.*?class="article block untagged mb15".*?>.*?<.*?class="content">.*?<span>(.*?)</span>.*?</div>' 
    duanzi_list = re.findall(pattern, r.text, re.S)

    # 对段子进行过滤
    num = 1
    for duanzi in duanzi_list:
        filter_duanzi = re.sub('<br/>|&quot', '', duanzi)
        print(str(num) + '.' + filter_duanzi + '\n')

        # 保存数据
        with open('糗事.txt', 'a', encoding ='utf-8') as f:
                f.write(str(num) + '.' + filter_duanzi + '\n\n\n')

        num += 1

start_spider()

预告
在猪肚篇我会教给大家:

  • 使用面向对象模式书写爬虫
  • 使用XPath语法进行数据过滤
  • 对网站反爬虫的一些应对方法
  • cookie的使用
  • scrapy神器的使用
  • 如何将数据保存到excel中
  • 新IDE-pycharm的使用
  • ...

如果大家在爬取数据中有任何不懂的地方, 欢迎给我留言, 我会尽力解决的. 因为我深知在新手阶段碰见问题的迷茫感, 我会陪各位一起度过的.

相关文章

网友评论

  • Cary9396:为啥添加了build system,也保存了,保存在默认文件夹 可是build system选项里面还是没这个选项 文件是存在的。里面的内容就是你上面的
  • 工程师礼法:把不是坑的地方硬生生的踩成了坑!!!
  • 破弓:我也在学python,你的文章写得也超好,还有女朋友,那么我只有黯然神伤的份了
    Pusswzy:@破弓 哈哈哈 谢谢夸奖 互相进步~
  • 糊涂0:保存了自己创建的build system ,但是使用不了,找不到这个build system
    糊涂0:@Pusswzy 我说错了,是没有python3这个选项,只有python这个选项,我看你的截图里,两种都有
    Pusswzy:@糊涂0 小哥这个有点... homebrew下的python3, 是下在电脑里面, sumlime想运行Python3需要配置对应的build system. 至于怎么配置我文中已经写了, 如果你找不到, 那就把你的详细步骤告诉我 我帮你.
    糊涂0:homebrew已经下载了python3, 但是在 sublime 的Tools -> Build System 里面没有python,怎么添加??
  • keitwo:博主,猪肚🐷呢😄
    keitwo: @Pusswzy 哈哈😄,期待中。。。👍
    Pusswzy:猪肚比较肥 得养一阵~
  • 我不是牛顿:大神的电脑是MAC吗?我print中文时报错,添加你说的代码还是报错。我的是window系统
    shixiaozhaoa:编码问题吧
    Pusswzy:@我不是牛顿 不是大神,我们都一样。我的是Mac系统,你可以上网查查
  • 橘子6:大神,猪肚呢,期待期待:pray: :pray:
    橘子6:@Pusswzy 好滴,:blush: :blush: 谢谢
    Pusswzy:到时候写完@你~
  • xiaoyouPrince:正好想学学Python,只是不知道现在很多https的网页也能爬出来吗,不是都加密了吗
    Pusswzy:@xiaoyouPrince 呃 正好是不同的两件事, 可以认为https在传输过程中是加密, 爬虫是爬取网页的呈现样式的源码. 跟传输过程没有关系的
  • ebay_Happy:大神收下我的胸,谢谢分享
    ebay_Happy:@Pusswzy C罩杯
    Pusswzy:@ebay_Happy 摸摸哒
  • 鹰眼米霍克:正好想学Python
    鹰眼米霍克:@Pusswzy 好的 谢谢
    Pusswzy:@朱家钰 碰见不会的在这留言给我:yum:
  • 问题饿:一入糗百深似海,从此节操似路人呀楼主
    问题饿:@Pusswzy 质量确实下降了很多呀o(╯□╰)o
    Pusswzy:@问题饿 糗百真是.. 我大学四年一直用诺基亚的小手机看糗百, 当时段子质量特别高, 这次我已爬虫, 看半天都没有一个让我乐的
  • YungFan:不错不错 我下午刚写了一个小爬虫
    Pusswzy:@YungFan 加油
  • 太二道士:现在挺多解析框架的,就不需要用正则了
    Pusswzy:@太二道士 是啊,lxml,beautifulSoup之类的,都是基于xpath的。但是我一般两者混用。在猪肚篇会讲xpath
  • 五分钟学算法:什么时候吃猪肚:joy:
    Pusswzy:猪肚大点才好吃... 再给我半个月 最近实在是忙成dog
  • 曾先森::grin: 龙头-猪肚-凤尾,楼主会吃啊
    Pusswzy::relaxed: 比1,2,3强点
  • f2efa87f6528:不错,期待!
    Pusswzy:@晓楼昨夜听风雨 下周周末吧
    f2efa87f6528:@Pusswzy 什么时候出第二篇。
    Pusswzy:@晓楼昨夜听风雨 谢谢:smile:

本文标题:零基础三天学会Python爬虫 -- 龙头

本文链接:https://www.haomeiwen.com/subject/lwncfxtx.html