爬虫-解析数据

爬虫-解析数据

作者: i骷髅精灵 | 来源:发表于2018-08-13 17:28 被阅读13次

数据的解析方式：
- 正则表达式匹配
- Xpath
- Beautiful Soup

本文主要介绍Beautiful Soup

Beautiful Soup安装

安装教程
使用
获取句柄

将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.后续的一系列操作都是通过句柄操作

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))
soup = BeautifulSoup("<html>data</html>")

对象的种类
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
- Tag
Tag就是可以理解为标签例如 html 、header 、body、div、p等等等
tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用 replace_with()方法
属性 | 说明 |
name
- NavigableString
NavigableString 类来包装tag中的字符串
通过 unicode() 方法可以直接将 NavigableString 对象转换成Unicode字符串
如果想在Beautiful Soup之外使用 NavigableString 对象,需要调用 unicode() 方法,将该对象转换成普通的Unicode字符串,否则就算Beautiful Soup已方法已经执行结束,该对象的输出也会带有对象的引用地址.这样会浪费内存.
- BeautifulSoup
BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象
BeautifulSoup 对象包含了一个值为 “[document]” 的特殊属性 .name
- Comment

资料：
Beautiful Soup中文官方文档

相关文章

网友评论

本文标题：爬虫-解析数据

本文链接：https://www.haomeiwen.com/subject/rxiubftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|爬虫-解析数据|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！