bs4的find报错--AttributeError: 'Non

作者: 山竹山竹px | 来源:发表于2020-05-24 22:46 被阅读0次

bs4的find报错--AttributeError: 'Non
2019-01-20-Beautifulsoup 报错 Attr
AttributeError: module 'thre
Tensorflow Error
JCVI
解决 AttributeError: 'module' obje
python的SQLite游标，fetchall报错object
beautiful 标准选择器/CSS选择器
AttributeError: 'unicode'
jcvi报错解决

目的

爬取一篇文章的纯文本

代码

html部分结构（文本省略一部分）:

<div class="article-content">
 <div class="img-container">
  <img class="normal" data-loaded="0" data-loadfunc="0" src="https://pics3.baidu.com/feed/8435e5dde71190ef96a361d14889c310fcfa60f9.jpeg?token=cb8c2459eda85b8591512996c90f93e4" width="400px"/>
 </div>
 <p>
  <span class="bjh-p">
   《钱锺书文学思想研究》：罗新河著；中国社会科学出版社出版。
  </span>
 </p>
 <p>
  <span class="bjh-p">
   钱锺书是我国知名学者...
  </span>
 </p>
 <p>
  <span class="bjh-p">
   在长期学术实践中，...
  </span>
 </p>
 <p>
  <span class="bjh-p">
   立足当今...
  </span>
 </p>
 <p>
  <span class="bjh-p">
   该书在研究方法上，...
  </span>
 </p>
 <p>
  <span class="bjh-p">
   《钱锺书文学思想研究》开掘了一座文学理论的富矿，有助于人们理解钱锺书的文学观点，有助于我们汲取理论资源和方式方法，更好实现中华优秀传统文化的创造性转化和创新性发展。
  </span>
 </p>
 <p>
  <span class="bjh-p">
   (作者为湖南工业大学教授)
  </span>
 </p>
 <p>
  <span class="bjh-br">
  </span>
  <span class="bjh-p">
   《 人民日报 》( 2020年03月17日   20 版)
  </span>
 </p>
</div>

在网页的源代码找文本对应的标签，8段p，最近的父类是 div,class_="article-content"

content = soup.find('div',class_="article-content")
print(content.prettify())
#格式化输出（上述已展示）

#使用for循环取文本内容
for data in content:
    paragraph = data.find('span',class_="bjh-p")
    print(paragraph.text)

报错 paragraph那行

AttributeError: 'NoneType' object has no attribute 'text'

分析

type一下

content 是find()的对象，是 'bs4.element.Tag' 类型，不是可迭代类型，（？）

我以为tag类型是不能使用循环遍历的嘞...?

for data in contents:
    paragraph = data.find('span',class_="bjh-p")
    print(paragraph)

得到的 paragraph 不能用 .text 。因为paragraph已经不是tag，而是tag当中的一部分

第一个不是 'span',class_="bjh-p"，而是有关一个图的，所以使用 find 找到第一个，发现不符合条件，所以返回 'None'

None
《钱锺书文学思想研究。。。
钱锺书是我国知名学者。。。
在长期学术实践中。。。
立足当今。。。
该书在研究方法上。。。
《钱锺书文学思想研究。。。
(作者为。。。
《人民日报。。。

find_all() 的对象是'bs4.element.ResultSet'，可迭代对象，可用for循环，可用 [] 取

解决

法一

title_1 = contents.find_all('p')
#因为知道需要取8次（8段），所以用了range
for data in range(8):
    res = title_1[data].find('span',class_="bjh-p").text
    print(res)

法二

datas = soup.find_all('span',class_="bjh-p")

for i in datas:
    print(i.text)

find的对象是tag, tag有属性text ; tag 不是可迭代对象，不能用 []
find_all的对象是 ResultSet ,没有属性text，ResultSet 可迭代，可用for循环，可用 []
用text获取纯文本时，获取的是该标签内所有纯文本信息，不论是直接在这个标签内，还是在它的子标签内

网友评论

本文标题：bs4的find报错--AttributeError: 'Non

本文链接：https://www.haomeiwen.com/subject/qmpsahtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

bs4的find报错--AttributeError: 'Non

目的

代码

分析

解决

相关文章