网页爬取,要看要爬取的信息藏在哪里?html中还是json文件中?你看到的不一定是你能得到的。当你下载不下来是考虑一下json解析。
导引:总体来说,从Response对象开始,网页内容就分成了两条路径,一条路径是数据放在HTML里,所以我们用BeautifulSoup库去解析数据和提取数据;另一条,数据作为Json存储起来,所以我们用response.json()方法去解析,然后提取、存储数据。
先复习一下网页爬取的流程吧:

1. HTML里面找信息:

2. network的XHR里面找信息(json数据):

3. 出现错误:
json出现decodingError时考虑requests.get()下来的是不是json的数据格式,还是html格式。不能想当然的认为就是json数据格式。
网友评论