（转载）分享一个很“水”的Python代码分析

作者: 78c40b03ee4e | 来源:发表于2019-03-15 16:03 被阅读1次

（转载）分享一个很“水”的Python代码分析
pylint在项目中的使用
python 代码静态检查工具pylint
机器学习专题：代码实现（R）
代码片段&编程小技巧
用python对鹿晗微博进行数据分析
一个很“水”的Python爬虫入门代码文件
Scrapy入门：爬取动漫评论
Python数据分析必知必会——TGI指数！
知乎数据清洗整理和结论研究

原文：Github
最近在Github上看见一段详细的代码分析，感觉挺有用，大家可以参考一下，也可以学习学习。

＃ _ * _编码：UTF-8 _ * _

“””
xianhu的python_spider.py
“””

导入请求
import urllib.error
import urllib.parse
import urllib.request
导入 http.cookiejar

第一段

＃首先定义下边可能需要的变量
url =  “ https://www.baidu.com ”
headers = { “ User-Agent ”：“ Mozilla / 4.0（兼容; MSIE 5.5; Windows NT）” }

＃最简单的网页抓取方式
response = urllib.request.urlopen（url，timeout = 10）
html = response.read（）。decode（“ utf-8 ”）


＃使用请求实例代替网址
request = urllib.request.Request（url，data = None，headers = {}）
response = urllib.request.urlopen（request，timeout = 10）

小编推荐一个学python的学习qun 740,3222,34
无论你是大牛还是小白，是想转行还是想入行都可以来了解一起进步一起学习！裙内有开发工具，很多干货和技术资料分享！

第二段


＃发送数据，即在请求（）中添加数据参数
data = urllib.parse.urlencode（{ “ act ”：“ login ”，“ email ”：“ xianhu@qq.com ”，“ password ”：“ 123456 ” }）
request1 = urllib.request.Request（URL，数据=数据）            ＃ POST方法
请求2 = urllib.request.Request（URL + “？％S ” ％数据）          ＃ GET方法
response = urllib.request.urlopen（request，timeout = 10）


＃发送报头，即在请求（）中添加报头参数
request = urllib.request.Request（url，data = data，headers = headers）    ＃参数中添加header参数
request.add_header（“ Referer ”，“ http://www.baidu.com ”）                ＃另一种添加header的方式，添加Referer是为了应对“反盗链”
response = urllib.request.urlopen（request，timeout = 10）

第三段


＃网页抓取引发异常：urllib.error.HTTPError，urllib.error.URLError，两者存在继承关系
尝试：
    urllib.request.urlopen（request，timeout = 10）
除了 urllib.error.HTTPError 为 e：
    打印（e.code，e.reason）
除了 urllib.error.URLError 为 e：
    打印（e.errno，e.reason）


＃使用代理，以防止IP被封或IP次数受限：
proxy_handler = urllib.request.ProxyHandler（proxies = { “ http ”：“ 111.123.76.12：8080 ” }）

opener = urllib.request.build_opener（proxy_handler）      ＃利用代理创建opener实例
响应= opener.open（URL）                             ＃直接利用开启器实例打开URL

urllib.request.install_opener（opener）                    ＃安装全局opener，然后利用urlopen打开网址
response = urllib.request.urlopen（url）

第四段

＃使用饼干和cookiejar，应对服务器检查
cookie_jar = http.cookiejar.CookieJar（）
cookie_jar_handler = urllib.request.HTTPCookieProcessor（cookiejar = cookie_jar）
opener = urllib.request.build_opener（cookie_jar_handler）
response = opener.open（url）


＃发送在浏览器中获取的饼干，两种方式：
＃（1）直接放到headers里
headers = {
    “ User-Agent ”： “ Mozilla / 4.0（兼容; MSIE 5.5; Windows NT）”，
    “ Cookie ”： “ PHPSESSID = btqkg9amjrtoeev8coq0m78396; USERINFO = n6nxTHTY％2BJA39z6CpNB4eKN8f0KsYLjAQTwPe％2BhLHLruEbjaeh4ulhWAS5RysUM％2B; ”
}
request = urllib.request.Request（url，headers = headers）

＃（2）构建cookie，添加到cookiejar中
cookie = http.cookiejar.Cookie（name = “ xx ”，value = “ xx ”，domain = “ xx ”，...）
cookie_jar.set_cookie（饼干）
response = opener.open（url）


＃同时使用代理和cookiejar
opener = urllib.request.build_opener（cookie_jar_handler）
opener.add_handler（proxy_handler）
response = opener.open（“ https://www.baidu.com/ ”）


＃抓取网页中的图片：同样适用于抓取网络上的文件右击鼠标，找到图片属性中的地址，然后进行保存。
response = urllib.request.urlopen（“ http://ww3.sinaimg.cn/large/7d742c99tw1ee7dac2766j204q04qmxq.jpg ”，超时= 120）
使用 open（“ test.jpg ”，“ wb ”）作为 file_img：
    file_img.write（response.read（））


＃ HTTP认证：即HTTP身份验证
password_mgr = urllib.request.HTTPPasswordMgrWithDefaultRealm（）      ＃创建一个PasswordMgr
password_mgr.add_password（realm = None，uri = url，user = ' username '，passwd = ' password '）    ＃添加用户名和密码
handler = urllib.request.HTTPBasicAuthHandler（password_mgr）          ＃创建HTTPBasicAuthHandler
opener = urllib.request.build_opener（handler）                        ＃创建opner
response = opener.open（url，timeout = 10）                              ＃获取数据


＃使用套接字代理
进口袜子
导入套接字

socks.setdefaultproxy（socks.PROXY_TYPE_SOCKS5，“ 127.0.0.1 ”，1080）
socket.socket = socks.socksocket
requests.get（“ http://www.baidu.com/s?ie=utf-8&wd=ip ”）