Python爬虫基础教学(写给入门的新手)

作者: dc260c55dcc9 | 来源:发表于2019-09-29 16:45 被阅读0次

Python爬虫基础教学(写给入门的新手)
3分钟带你了解世界第一语言Python 入门上手也这么简单！
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
Python网络爬虫（七）- 深度爬虫CrawlSpider
Python网络爬虫（二）- urllib爬虫案例
Python网络爬虫（一）- 入门基础
Python网络爬虫（四）- XPath
Python网络爬虫（三）- 爬虫进阶
Python网络爬虫（六）- Scrapy框架
Python网络爬虫（五）- Requests和Beautifu

前言

刚学完python基础，想学习爬虫的新手，这里有你想要的东西。

本文着重点在于教新手如何学习爬虫，并且会以外行人的思维进行形象地讲解。最近我一兄弟想学，我就想写个教学给他，然后想不如分享到网络上，给热爱学习的人们一起学习探讨。

为了让学习变得轻松，高效！今天给大家分享一套教学资源，帮助大家在成为Python高手的道路上披荆斩棘，加小编Python学习秋秋群：前面是934，中间109，后面是170，群管理会给你发送你需要的学习资源，群内每晚八点免费直播授课，讲解Python案例，同时还有Python大牛在线解答问题！

环境安装

python3.7.1

pip install requests

pip install beautifulsoup4

pip install lxml

技术讲解

requests库

requests一般用于发起http请求，并且拿到请求的结果。http常用的请求有两种，GET和POST，爬虫主要用的是GET请求。

在不懂http,https和dns,TCP/IP等协议的情况下，我直接打个比方来解释一下什么是GET请求，以360浏览器为例，人在360浏览器输入www.baidu.com，然后敲击enter键，直到页面出现，整个过程，我们可以抽象为我们向百度服务器发起的一次GET请求。

更专业，更详细的解释，自己去百度学习吧。

如何使用requests库来模拟浏览器的行为来获取页面内容呢？

示例代码如下

import requests

web = requests.get('https://www.baidu.com') #向百度发起一次get请求，返回请求结果的实体类

print(web.status_code) #请求返回的状态码，200是OK，404是页面不存在，500是错误，更多自己百度搜索

print(type(web.content)) #页面内容的数据类型是bytes，因此需要解码

print(type(web.content.decode()))

print(web.content.decode()) #解码之后，得到的页面内容是结构化的字符串

这样看起来，我们获取到的页面内容不是我们在浏览器看到的图形化界面，而是字符串，更像是一些代码。如果你学过html和css那就不用多说了。没学过也不要紧，现在可以简单学一下，也就花几分钟了解一下就够用了。

html是一种标记语言，可以被浏览器执行，然后呈现出可视化的图形界面。如果你把web.content.decode()这一串字符串保存在test.html里，然后双击打开，你会看到图形化界面的，只不过有些图片可能显示不了，这里就不细说了。

html其实很好理解，不要想得太复杂，就是一段有规律的格式化的文本。

其基本格式就是

html文本的标签一般都是成双成对，有始有终的，比如<body>和</body>是一队，千万不能拆散，拆散就乱套了。少数除外比如<br>是换行用的,可以不用配对。

这里我们主要讲body标签，网页的主要内容都是在这个标签里显示的，比如标题，段落，图片等

在test.html里我们写入一下代码并且保存。

html更多标签所代表的意义可以去这里学习 http://www.runoob.com/html/ht...

beautifulsoup4库

bs4(简称)库是用于解析格式化文本，提取数据用的库。

我们利用requests库的get函数拿到网页的内容是一段格式化的字符串，接下来就可以用bs4来解析它。

解析的示例代码如下

注意，tag保存的不是字符串，而是bs4模块中的一个标签实体类，我们主要需要知道它的attrs属性和string属性，方便我们拿到一些我们想要的文本和信息，比如a标签的href属性就保存在attrs里。

总结

本文主要讲了如何使用requests获取网页文本内容，以及如何解析html文本，更多更好用的爬虫库

Python爬虫基础教学(写给入门的新手)
前言刚学完python基础，想学习爬虫的新手，这里有你想要的东西。本文着重点在于教新手如何学习爬虫，并且会以外...
3分钟带你了解世界第一语言Python 入门上手也这么简单！
一、Python入门 1. Python爬虫入门一之综述 Python爬虫入门二之爬虫基础了解 Python爬虫入...
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
Python网络爬虫（七）- 深度爬虫CrawlSpider
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
Python网络爬虫（二）- urllib爬虫案例
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
Python网络爬虫（一）- 入门基础
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
Python网络爬虫（四）- XPath
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
Python网络爬虫（三）- 爬虫进阶
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
Python网络爬虫（六）- Scrapy框架
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
Python网络爬虫（五）- Requests和Beautifu
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...