Day056｜Beautiful Soup基础知识之一

作者: 龙渊的宝藏 | 来源:发表于2021-06-02 16:02 被阅读0次

Day056｜Beautiful Soup基础知识之一
python爬虫Beautiful Soup基础知识总结（附带实
python beautiful soup库入门
Python Beautiful Soup
Python爬虫利器之Beautiful Soup的用法
Python爬虫——Beautiful Soup
Python读取网页并获取某节点
菜鸟学习~（第八期):爬虫基础(三)，Beautiful Sou
Beautiful Soup库详解
爬虫基础：Beautiful Soup

今天是Andy学Python的第56 天哦！

大家好，我是Andy。

01.

Beautiful Soup介绍

首先看官方文档是这样介绍的：

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。Beautiful Soup会帮你节省数小时甚至数天的工作时间。

Beautiful Soup 3 目前已经停止开发,我们推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4。

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。

02.

安装

安装Anaconda成开发环境时，己经安装了Beautifulsoup组件，直接导入就可以使用。

03.

Beautiful Soup属性和方法

3.1常用属性方法汇总

title：返回网页标题。

text: 返回去除所有HTML标签后的网页内容。

find():返回第一个符合条件的标签。

find_all():返回所有符合条件的标签。

select():返回指定CSS样式（如id或class)的内容，详细见下。

3.2 find()与find_all()方法

find()方法会返回第一个符合条件的标签，找到后会返回一个字符串：找不到则返回None。

find_all()方法则会返回所有符合条件的标签，找到后会传回一个列表；找不到返回空的列表。

3.3 select()方法

soup.select('div')：返回所有名为<div>的元素。

soup.select('#id')：返回带有 id 属性的元素。

soup.select('.classname'):返回所有使用 CSS class 属性名为 classname 的元素。

soup.select('div span')：返回所有在<div>元素之内的<span>元素。

soup.select('div > span')：返回所有直接在<div>元素之内的<span>元素，中间没有其他元素。

soup.select('input[name]')：返回所有名为<input>，并有一个 name 属性，其值无所谓的元素。

soup.select('input[type="bush"]')：返回所有名为<input>，并有一个 type 属性，其值为bush 的元素。

51Day Day up!

向上向善，日进一步！

每天学习，努力成长！

定个小目标，开启成长的旅程，遇见更好的自己。

这是我们和自己的约定，许诺自己不负韶华。

路虽远，行则将至；事虽难，做则必成。

成长的最好时机，就是当下。

网友评论

本文标题：Day056｜Beautiful Soup基础知识之一

本文链接：https://www.haomeiwen.com/subject/gxcilltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Day056｜Beautiful Soup基础知识之一

相关文章