5.2 好不习惯python啊

作者: 反复练习的阿离很笨吧 | 来源:发表于2019-03-27 09:27 被阅读0次

5.2 好不习惯python啊
《Python高效开发实战》分享下载
公共语法
Anconda 环境下安装tensorflow
左手书法第一篇
golang常用的http请求操作
5.2 《如何养成习惯》
5.2习惯养成计
数据团Python_5. Python映射：字典dict
被告知预产期提前

sublime介绍
 sublime
插件
 git

一开始没法扩展标签，要安emmet插件才可以。

刚开始想写个list，结果一个声明都写死我了。枯了。总以为list后面要有个[]的，没想到就是简简单单一句a=[]，诶话说java也是这样的吗。。
Java 语言中提供的数组是用来存储固定大小的同类型元素。

会常常因为忘记if while for后面的：出错。。

用Requests库的get()函数抓取一个你平时经常使用的网站主页，并查看该网站的爬虫协议（如果有的话）。默认答案是正确，你成功了吗？(●'◡'●)

抓取网站情况多样，有时还会很复杂，这需要长期的积累，不能一蹴而就，列举几种情况：

a.假设获取的是二进制文件，则可以借鉴如下方法保存数据：

import requests
r = requests.get('https://www.baidu.com/img/bd_logo1.png')
with open('baidu.png', 'wb') as fp:
   fp.write(r.content)

b. 为了反爬，有些网站会对Headers的User-Agent进行检测，需将headers信息传递给get函数的headers参数，例如知乎，直接访问会返回400，加上headers参数后可正确返回：

>>> re = requests.get('https://www.zhihu.com')
>>> re.status_code
400
# headers可从http测试网站https://httpbin.org或浏览器的“开发者工具”获得
>>> headers = {"User-Agent": "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.83 Safari/535.11"}
>>> re = requests.get('https://www.zhihu.com', headers = headers)
>>> re.status_code
200

反爬的策略还有很多，需要逐渐熟悉，有些网站要想获得数据还需要登录，需要分析登录需要的属性。

c. 被JS渲染过的页面内容获取
可以通过浏览器的“开发者工具”功能寻找真正提供数据的页面，有时会有一定的难度。