关于爬虫，你需要知道的BeautifulSoup(一)

关于爬虫，你需要知道的BeautifulSoup(一)

作者: 凡有言说 | 来源:发表于2019-05-23 12:24 被阅读7次

关于爬虫，你需要知道的BeautifulSoup(二)
关于爬虫，你需要知道的BeautifulSoup(二)
关于爬虫，你需要知道的BeautifulSoup(一)
关于爬虫，你需要知道的BeautifulSoup(一)
beautifulsoup教程
QQ空间爬虫，打造历时说说词云图，python来唤醒你的记忆！
为何选Scrapy&常用正则
pytho爬虫（一）：BeautifulSoup4、Reques
爬取猫眼电影top100，request、beautifulso
BeautifulSoup requests 爬虫初体验

日拱一卒|数据挖掘014

本篇推送涉及的代码链接：https://github.com/piyixiaeco/daily-code/blob/master/Beautiful%20Soup.ipynb

数据爬下来，大部分情况是 HTML 文本，也有少数是基于 XML 格式或者 Json 格式的数据，要想正确处理这些数据，你要熟悉每种数据类型的解决方案，比如 JSON 数据可以直接使用 Python自带的模块 json，对于 HTML 数据，可以使用 BeautifulSoup、lxml 等库去处理，对于 xml 数据，除了可以使用 untangle、xmltodict 等第三方库（Python之禅刘志军）。

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库，通过 BeautifulSoup，只需要用很少的代码就可以提取出 HTML 中任何感兴趣的内容，此外，它还有一定的 HTML 容错能力，对于一个格式不完整的HTML 文档，它也可以正确处理。

Beautiful Soup官方文档

一、安装

首先pip install beautifulsoup4安装requests库

接下来导入beautifulsoup4并做个小测试

1

2

二、使用BeautifulSoup

仅用两行代码就可以使用BeautifulSoup

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>data</p>', 'html.parser')

构建一个 BeautifulSoup 对象需要两个参数:

<p>data</p> 解析的 HTML 文本字符串
html.parser 告诉 BeautifulSoup 使用哪个解析器来解析 HTML

3

Beautiful Soup库，也叫beautifulsoup4 或 bs4，约定引用方式如下，即主要是用BeautifulSoup类

from bs4 import BeautifulSoup或import bs4

HTML 标签

在详细介绍BeautifulSoup之前，我们先来看看有关HTML标签的知识

HTML 是一个树形组织结构

Beautiful Soup库是解析、遍历、维护“标签树”的功能库

4

它由很多标签（Tag）组成，比如 html、head、title等等都是标签
一个标签对构成一个节点，比如 <html>...</html>是一个根节点
节点之间存在某种关系，比如 h1 和 p 互为邻居，他们是相邻的兄弟（sibling）节点
h1 是 body 的直接子（children）节点，还是 html 的子孙（descendants）节点
body 是 p 的父（parent）节点，html 是 p 的祖辈（parents）节点
嵌套在标签之间的字符串是该节点下的一个特殊子节点，比如 “hello, world” 也是一个节点，只不过没名字。

关于HTML更多可以看关于爬虫，你需要知道的HTML知识

5

如上图，标签名称为p

HTML文档，标签树，BeautifulSoup类三者是等价的，即BeautifulSoup对应一个HTML/XML文档的全部内容

6

（一）基本元素

下面介绍BeautifulSoup类的基本元素：

7

1.Tag标签

8

9

任何存在于HTML语法中的标签都可以用soup.<tag>访问获得，如上是获取a标签的信息。当HTML文档中存在多个相同<tag>对应内容时，soup.<tag>返回第一个。

2.Name 名字

10

11

每个<tag>都有自己的名字，通过<tag>.name获取，字符串类型。

3.Attributes 属性

12

13

一个<tag>可以有0或多个属性，字典类型

4.NavigableString 标签内非属性字符串

14

15

NavigableString可以跨越多个层次

5.Comment 注释

16

17

Comment是一种特殊类型

小结：五大类基本元素

18

下一篇推文将介绍基于bs4的HTML内容遍历方法和搜索方法

参考资料：
1.Python爬虫知识点梳理
2.HTML文本解析库BeautifulSoup
3.Python网络爬虫与信息提取

相关文章

关于爬虫，你需要知道的BeautifulSoup(二)
日拱一卒|数据挖掘015 阅读本文前建议先浏览：关于爬虫，你需要知道的BeautifulSoup(一) 本篇推送...
关于爬虫，你需要知道的BeautifulSoup(二)
日拱一卒|数据挖掘015 阅读本文前建议先浏览：关于爬虫，你需要知道的BeautifulSoup(一) 本篇推送...
关于爬虫，你需要知道的BeautifulSoup(一)
日拱一卒|数据挖掘014 本篇推送涉及的代码链接：https://github.com/piyixiaeco/da...
关于爬虫，你需要知道的BeautifulSoup(一)
日拱一卒|数据挖掘014 本篇推送涉及的代码链接：数据爬下来，大部分情况是 HTML 文本，也有少数是基于 XM...
beautifulsoup教程
beautifulsoup教程 BeautifulSoup4是爬虫必学的技能。BeautifulSoup最主要的功...
QQ空间爬虫，打造历时说说词云图，python来唤醒你的记忆！
本次python爬虫需要的环境是： selenium模拟登录+BeautifulSoup4爬取数据+wordclo...
为何选Scrapy&常用正则
关于爬虫开发可选功能组件比较：1、requests和beautifulsoup都是库，scrapy是框架。2、sc...
pytho爬虫（一）：BeautifulSoup4、Reques
学习爬虫前安装pycharm后默认不带BeautifulSoup4、Requests和、xml的库需要手动安装...
爬取猫眼电影top100，request、beautifulso
这是第三篇爬虫实战，运用request请求，beautifulsoup解析，mysql储存。如果你正在学习爬虫，本...
BeautifulSoup requests 爬虫初体验
BeautifulSoup requests 爬虫初体验说爬虫不得不提python 常用的Python爬虫库(摘...

网友评论

爬虫小小白

本文标题：关于爬虫，你需要知道的BeautifulSoup(一)

本文链接：https://www.haomeiwen.com/subject/edzfzqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

爬虫小小白

热点阅读

爬虫小小白

关于我们|服务条款|联系我们|关于爬虫，你需要知道的BeautifulSoup(一)|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！