爬虫百度一下

作者: 夕阳下的不回头 | 来源:发表于2018-02-07 17:14 被阅读18次

python爬虫系列之 xpath实战：批量下载壁纸
爬虫百度一下
NodeJs + Phantomjs 简易爬虫
廖雪峰 python商业爬虫课程（全部课程+课件）
静态爬虫实战之百度百科
豆瓣图书rvest爬虫
探索百度链接（URL）中的那些编码变化
爬虫分类
数据采集项目中常见爬虫代理测试分析
爬虫基础复习

url1='https://www.baidu.com/'

html=requests.get(url1)

print(html)#不加text的话只返回一个状态码正常是200

print(html.text)#加上text之后返回的是网站的源代码会有乱码的

html.encoding="Unicode"

print(html.text.decode('Unicode'))#这一行错误哈为毛因为html.text是个字符串不能重新编码可以重新编码的只有 html也就是requests.get(url1)

#这个地方必须注意虽然requests.get(url1)打印出来就是个状态码但是其实它不是个状态码可以认为他是网页源代码但是不是text格式打印不出来

#然而你想用text格式显示中文的话（或者特殊字符的话）你必须更改他的编码格式才能做到也就是用decode() encode()方法或者encoding这个属性

意思就是必须先转换格式再调用text这个属性才行一旦成为字符串就无法改变编码格式了

python爬虫系列之 xpath实战：批量下载壁纸
一、前言在开始写爬虫之前，我们先了解一下爬虫首先，我们需要知道爬虫是什么，这里直接引用百度百科的定义网络爬虫...
爬虫百度一下
url1='https://www.baidu.com/' html=requests.get(url1) pri...
NodeJs + Phantomjs 简易爬虫
NodeJs + Phantomjs 简易爬虫爬虫是什么？引用百度百科的说法是：如何在NodeJs上搭建爬虫...
廖雪峰 python商业爬虫课程（全部课程+课件）
百度网盘下载百度云盘下载廖雪峰数据分析全栈工程师百度网盘下载百度云盘下载（全部课程+课件）爬虫的价值.爬虫...
静态爬虫实战之百度百科
目标需求爬取百度百科一百个词条，保存其相关的链接、标题、摘要信息爬虫架构想象一下爬虫运行的过程，从计算机启动，从...
豆瓣图书rvest爬虫
随便百度一下，可以发现很多豆瓣图书的爬虫案例，本文主要参考知乎爬虫利器Rvest包。第一页网页内容爬取以第一页...
探索百度链接（URL）中的那些编码变化
小惑有观察最近在做有关爬虫的东西，拿百度练手，在定向爬虫发现百度的搜索链接中有个很有意思的情况。众所周知，百度...
爬虫分类
通用爬虫和聚焦爬虫两种通用网络爬虫：主要用于大型搜索引擎比如用户在百度搜索引擎上检索对应关键词时，百度将...
数据采集项目中常见爬虫代理测试分析
数据采集项目中常见爬虫代理测试分析淘宝、百度找一遍，发现HTTP代理、爬虫代理、爬虫IP的产...
爬虫基础复习
爬虫 1. 请阐述通用爬虫和聚焦爬虫的概念通常情况下，我们将搜索引擎使用的爬虫我们称之为通用爬虫，就像谷歌和百度...