美文网首页
5.2 好不习惯python啊

5.2 好不习惯python啊

作者: 反复练习的阿离很笨吧 | 来源:发表于2019-03-27 09:27 被阅读0次

sublime介绍
sublime
插件
git

一开始没法扩展标签,要安emmet插件才可以。

刚开始想写个list,结果一个声明都写死我了。枯了。总以为list后面要有个[]的,没想到就是简简单单一句a=[],诶话说java也是这样的吗。。
Java 语言中提供的数组是用来存储固定大小的同类型元素。

会常常因为忘记if while for后面的:出错。。

用Requests库的get()函数抓取一个你平时经常使用的网站主页,并查看该网站的爬虫协议(如果有的话)。默认答案是正确,你成功了吗?(●'◡'●)

抓取网站情况多样,有时还会很复杂,这需要长期的积累,不能一蹴而就,列举几种情况:

a.假设获取的是二进制文件,则可以借鉴如下方法保存数据:

import requests
r = requests.get('https://www.baidu.com/img/bd_logo1.png')
with open('baidu.png', 'wb') as fp:
   fp.write(r.content)

b. 为了反爬,有些网站会对Headers的User-Agent进行检测,需将headers信息传递给get函数的headers参数,例如知乎,直接访问会返回400,加上headers参数后可正确返回:

>>> re = requests.get('https://www.zhihu.com')
>>> re.status_code
400
# headers可从http测试网站https://httpbin.org或浏览器的“开发者工具”获得
>>> headers = {"User-Agent": "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.83 Safari/535.11"}
>>> re = requests.get('https://www.zhihu.com', headers = headers)
>>> re.status_code
200

反爬的策略还有很多,需要逐渐熟悉,有些网站要想获得数据还需要登录,需要分析登录需要的属性。

c. 被JS渲染过的页面内容获取
可以通过浏览器的“开发者工具”功能寻找真正提供数据的页面,有时会有一定的难度。

相关文章

  • 5.2 好不习惯python啊

    sublime介绍sublime插件git 一开始没法扩展标签,要安emmet插件才可以。 刚开始想写个list,...

  • 《Python高效开发实战》 分享下载

    书籍信息 书名: Python高效开发实战 豆瓣评分: 5.2分(53人评价) 标签: Python,django...

  • 公共语法

    公共语法 5.1 Python 内置函数 Python 包含了以下内置函数: 5.2 切片 5.3 运算符 成员运...

  • Anconda 环境下安装tensorflow

    1.安装Anconda3 5.2 (对应Python3.6,Python3.7目前还不支持tensorflow)2...

  • 左手书法第一篇

    好丑啊,好难写,好不习惯,笔锋都不知道往哪撇!

  • golang常用的http请求操作

    之前用python写各种网络请求的时候写的非常顺手,但是当打算用golang写的时候才发现好不习惯,习惯golan...

  • 5.2 《如何养成习惯》

    俗话说:一件事坚持21天就会成为习惯。之前在小灶群比较活跃,三月几乎每天都会参加话题讨论,并在简书上记录心得。今天...

  • 5.2习惯养成计

    积极觉察表 早起 高标准 运动 未达成标准 阅读 未完成标准 今天没有刻意的练习完成我的表层习惯,主要原因就...

  • 数据团Python_5. Python映射:字典dict

    5. Python映射:字典dict 5.1 字典dict基本概念(重点) 5.2 dict字典的元素访问及遍历 ...

  • 被告知预产期提前

    今天去39周产检,我一直以为自己的预产期是5.5,今天医生说你是5.2号啊。 好吧。 因为5.2正是假期,医院门诊...

网友评论

      本文标题:5.2 好不习惯python啊

      本文链接:https://www.haomeiwen.com/subject/hqawvqtx.html