美文网首页
Day056|Beautiful Soup基础知识之一

Day056|Beautiful Soup基础知识之一

作者: 龙渊的宝藏 | 来源:发表于2021-06-02 16:02 被阅读0次

    今天是Andy学Python的第56 天哦! 

    大家好,我是Andy。

    01.

    Beautiful Soup介绍

    首先看官方文档是这样介绍的:

    Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。Beautiful Soup会帮你节省数小时甚至数天的工作时间。

    Beautiful Soup 3 目前已经停止开发,我们推荐在现在的项目中使用Beautiful Soup 4, 移植到BS4。

    Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

    02.

    安装

    安装Anaconda成开发环境时,己经安装了Beautifulsoup组件,直接导入就可以使用。

    03.

    Beautiful Soup属性和方法

    3.1常用属性方法汇总

    title:返回网页标题。

    text: 返回去除所有HTML标签后的网页内容。

    find():返回第一个符合条件的标签。

    find_all():返回所有符合条件的标签。

    select():返回指定CSS样式(如id或class)的内容,详细见下。

    3.2 find()与find_all()方法

    find()方法会返回第一个符合条件的标签,找到后会返回一个字符串:找不到则返回None。

    find_all()方法则会返回所有符合条件的标签,找到后会传回一个列表;找不到返回空的列表。

    3.3 select()方法

    soup.select('div'):返回所有名为<div>的元素。

    soup.select('#id'):返回带有 id 属性的元素。

    soup.select('.classname'):返回所有使用 CSS class 属性名为 classname 的元素。

    soup.select('div span'):返回所有在<div>元素之内的<span>元素。

    soup.select('div > span'):返回所有直接在<div>元素之内的<span>元素,中间没有其他元素。

    soup.select('input[name]'):返回所有名为<input>,并有一个 name 属性,其值无所谓的元素。

    soup.select('input[type="bush"]'):返回所有名为<input>,并有一个 type 属性,其值为bush 的元素。

    51Day Day up!

    向上向善,日进一步!

    每天学习,努力成长!

    定个小目标,开启成长的旅程,遇见更好的自己。

    这是我们和自己的约定,许诺自己不负韶华。

    路虽远,行则将至;事虽难,做则必成。

    成长的最好时机,就是当下。

    相关文章

      网友评论

          本文标题:Day056|Beautiful Soup基础知识之一

          本文链接:https://www.haomeiwen.com/subject/gxcilltx.html