爬虫学习笔记(一)

作者: 统计学徒 | 来源:发表于2018-11-15 17:54 被阅读0次

（对学习过程中的一些资料进行整理归类和分析）
学习爬虫主要分3大部分：抓取，分析，存储。主要模型基础可以参考HTTP提要中的说明。

抓取

抓取数据是爬虫的关键，你要明确要得到的内容是什么？是HTML源码，还是Json格式的字符串等。特别对于一些具有“防御性”的情况，比如说网站需要登陆、挂代理访问、限制访问频率或者输入验证码的情况，都需要考虑到。（来源）

Python有自带的urllib库（参考1,参考2）可以实现抓取功能（Python3.x已经将urllib和urllib2两个库整合成了urllib一个库）；还可以安装requests（参考）包实现类似功能。

1.最基础的情况

抓取网页最基本信息，如下面代码所示。
Python3 代码：

import urllib.request as reqt

# 链接
url = "http://www.baidu.com"
# 请求
request = reqt.Request(url)
# 响应
response = reqt.urlopen(request)
data = response.read()
# 解码
data = data.decode('utf-8')

#### 显示信息 ####
print(data)

print(type(response))
print(response.geturl())
print(response.info())
print(response.getcode())

宁哥的小站：网易新闻排行榜抓取
url的构成参考： HTTP提要 。

2.伪装浏览器

对于一些需要登录的网站，如果不是从浏览器发出的请求，则得不到响应。所以，我们需要将爬虫程序发出的请求伪装成浏览器。（实例参考 来源：伪装浏览器）
其中的报头中的userAgent部分：