美文网首页
爬虫百度一下

爬虫百度一下

作者: 夕阳下的不回头 | 来源:发表于2018-02-07 17:14 被阅读18次

url1='https://www.baidu.com/'

html=requests.get(url1)

print(html)#不加text的话只返回一个状态码 正常是200

print(html.text)#加上text之后 返回的是网站的源代码  会有乱码的

html.encoding="Unicode"

print(html.text.decode('Unicode'))#这一行错误哈  为毛  因为html.text是个字符串 不能重新编码 可以重新编码的只有 html也就是requests.get(url1)

#这个地方必须注意 虽然requests.get(url1)打印出来就是个状态码 但是其实它不是个状态码  可以认为他是网页源代码但是不是text格式打印不出来

#然而你想用text格式显示中文的话(或者特殊字符的话)你必须更改他的编码格式  才能做到 也就是用decode() encode()方法或者encoding这个属性

意思就是 必须先转换格式 再调用text这个属性才行  一旦成为字符串 就无法改变 编码格式了

相关文章

  • python爬虫系列之 xpath实战:批量下载壁纸

    一、前言 在开始写爬虫之前,我们先了解一下爬虫 首先,我们需要知道爬虫是什么,这里直接引用百度百科的定义 网络爬虫...

  • 爬虫百度一下

    url1='https://www.baidu.com/' html=requests.get(url1) pri...

  • NodeJs + Phantomjs 简易爬虫

    NodeJs + Phantomjs 简易爬虫 爬虫是什么? 引用百度百科的说法是: 如何在NodeJs上搭建爬虫...

  • 廖雪峰 python商业爬虫课程(全部课程+课件)

    百度网盘下载 百度云盘下载廖雪峰 数据分析全栈工程师 百度网盘下载 百度云盘下载(全部课程+课件)爬虫的价值.爬虫...

  • 静态爬虫实战之百度百科

    目标需求爬取百度百科一百个词条,保存其相关的链接、标题、摘要信息 爬虫架构想象一下爬虫运行的过程,从计算机启动,从...

  • 豆瓣图书rvest爬虫

    随便百度一下,可以发现很多豆瓣图书的爬虫案例,本文主要参考知乎爬虫利器Rvest包。 第一页网页内容爬取 以第一页...

  • 探索百度链接(URL)中的那些编码变化

    小惑有观察 最近在做有关爬虫的东西,拿百度练手,在定向爬虫发现百度的搜索链接中有个很有意思的情况。 众所周知,百度...

  • 爬虫分类

    通用爬虫 和 聚焦爬虫 两种 通用网络爬虫:主要用于大型搜索引擎 比如用户在百度搜索引擎上检索对应关键词时,百度将...

  • 数据采集项目中常见爬虫代理测试分析

    数据采集项目中常见爬虫代理测试分析 淘宝、百度找一遍,发现HTTP代理、爬虫代理、爬虫IP的产...

  • 爬虫基础复习

    爬虫 1. 请阐述通用爬虫和聚焦爬虫的概念 通常情况下,我们将搜索引擎使用的爬虫我们称之为通用爬虫,就像谷歌和百度...

网友评论

      本文标题:爬虫百度一下

      本文链接:https://www.haomeiwen.com/subject/ltjazxtx.html