美文网首页
爬虫结果不全,内容无故消失问题

爬虫结果不全,内容无故消失问题

作者: 隐墨留白 | 来源:发表于2019-02-15 16:22 被阅读0次

今天爬取一个小说网站,但是返回的结果却不包含小说的内容。
网页源码是:

yuan.png

爬虫代码如下:

import requests
from lxml import etree
url = 'http://www.xbiquge.la/7/7004/3246381.html'
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36',
}
response = requests.get(url,header).content.decode()
print(response)

代码执行的结果:


paqu.png

刚开始以为是ajax请求,用开发者工具(F12)看了之后才发现并不是。然后我又将爬取的结果写入本地文件,竟然发现小说的内容出现了。

with open('zhetian.html','w',encoding='utf-8')as f:
     f.write(response)
bendi.png

这么看请求是成功了,但是response打印有问题,那对response进行解析一下看看吧。

from lxml import etree
data = etree.HTML(response)
text =data.xpath('//*[@id="content"]/text()')
print(text)
jieguo.png

这下总算成功了。搞定收工!!!
原理呢,我查了一下(不知道是不是),etree.HTML()将字符串解析为html文档 HTML 可以自动补全 li标签 body和html标签。

相关文章

  • 爬虫结果不全,内容无故消失问题

    今天爬取一个小说网站,但是返回的结果却不包含小说的内容。网页源码是: 爬虫代码如下: 代码执行的结果: 刚开始以为...

  • UITabbar无故消失问题

    问题现场是这样的切换tab,tabvc内嵌navvc,三个tab其中两个是系统UIVC的,tabbar不隐藏,而有...

  • webView内容消失问题

    iOS中的电话号码检测功能默认打开,当输入的是一串数字但又不是正确的电话号码时,jsz中label上的内容就会消失...

  • WKWebView内容显示不全的问题

    WKWebView加载在cell的contentView上的时候有的时候内容会显示不全。 解决方法:在cell上加...

  • iOS开发 - 完美解决Xcode NSLog打印不全

    完美解决Xcode NSLog打印不全的问题 打印结果

  • python书单

    以下内容为使用爬虫在知乎所爬到的前50条结果并记录书名和出现次数,结果仅供参考。 爬虫结果如下 《Python学习...

  • C/C++书单

    以下内容为使用爬虫在知乎所爬到的前50条结果并记录书名和出现次数,结果仅供参考。 爬虫结果如下 《The C Pr...

  • 算法书单

    以下内容为使用爬虫在知乎所爬到的前50条结果并记录书名和出现次数,结果仅供参考。 爬虫结果如下 《算法图解》:10...

  • 人工智能书单

    以下内容为使用爬虫在知乎所爬到的前50条结果并记录书名和出现次数,结果仅供参考。 爬虫结果如下 《人工智能》:36...

  • linux书单

    以下内容为使用爬虫在知乎所爬到的前50条结果并记录书名和出现次数,结果仅供参考。 爬虫结果如下 《鸟哥的Linux...

网友评论

      本文标题:爬虫结果不全,内容无故消失问题

      本文链接:https://www.haomeiwen.com/subject/zynpeqtx.html