提取网页正文的主要内容 BeautifulSoup

提取网页正文的主要内容 BeautifulSoup

作者: 布口袋_天晴了 | 来源:发表于2018-08-22 07:39 被阅读15次

提取网页正文的主要内容 BeautifulSoup
(五)网页解析-提取结构化数据-BeautifulSoup+Xp
Java网页正文提取工具
爬虫任务二
Python学习之使用Beautiful Soup解析网页（简析
第2关 BeautifulSoup
Python实战 - 第2节：解析网页中的元素
Python实战计划学习笔记（2）网页解析
使用Python进行网页正文提取
Python基础学习19

Python的BeautifulSoup包的使用:

from bs4 import BeautifulSoup

soup = BeautifulSoup.BeautifulSoup(html)

利用这个包先把html里script，style给清理了：

[script.extract()for scriptin soup.findAll('script')]

[style.extract()for stylein soup.findAll('style')]

清理完成后，这个包有一个prettify()函数，把代码格式给搞的标准一些：

soup.prettify()

然后用正则表达式，把所有的HTML标签全部清理了：

reg1 =re.compile("<[^>]*>")

content =reg1.sub('',soup.prettify())

prettify()可以用于BeautifulSoup对象也可以用于任何标签对象。比如：

producer_entry = soup.ul

print(producer_entry.prettify())

使用get_text(),如果我们只想得到BeautifulSoup对象的文本或标签对象的文本内容，我们可以使用get_text()方法。比如：

soup = BeautifulSoup(html_markup,“lxml”)

print(soup.get_text())

但是get_text()有个问题是它同样也会返回javascript代码。去掉javascript代码的方法如下：

[x.extract()for xin soup_packtpage.find_all(‘script’)]

相关文章

提取网页正文的主要内容 BeautifulSoup
Python的BeautifulSoup包的使用: from bs4 importBeautifulSoupsou...
(五)网页解析-提取结构化数据-BeautifulSoup+Xp
网页解析-提取结构化数据 BeautifulSoup 简介简单例子指定解析器 BeautifulSoup解析网...
Java网页正文提取工具
最近做一个项目，其中涉及到网页信息采集，随后对相关的技术进行了学习与研发，网页正文提取技术常用的有joyhtml、...
爬虫任务二
2.1 学习beautifulsoup 学习beautifulsoup，并使用beautifulsoup提取内容。...
Python学习之使用Beautiful Soup解析网页（简析
通过requests库已经可以抓到网页源码，接下来要从源码中找到并提取数据。BeautifulSoup是pytho...
第2关 BeautifulSoup
1、BeautifulSoup 是什么解析和提取网页中的数据：（1）解析数据：把服务器返回来的 HTML 源代...
Python实战 - 第2节：解析网页中的元素
笔记爬取网页的基本方法：使用BeautifulSoup解析网页Soup = BeautifulSoup(htm...
Python实战计划学习笔记（2）网页解析
python中解析网页内容基本步骤使用BeautifulSoup解析网页Soup = BeautifulSoup...
使用Python进行网页正文提取
1. Goose Extractor 1.1 Python Goose介绍 Goose Extractor是一个P...
Python基础学习19
BeautifulSoup安装库 BeautifulSoup替代正则提取html内容应用案例：

网友评论

本文标题：提取网页正文的主要内容 BeautifulSoup

本文链接：https://www.haomeiwen.com/subject/vhqeiftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

python爬虫攻防

热点阅读

python模块

python爬虫攻防

关于我们|服务条款|联系我们|提取网页正文的主要内容 BeautifulSoup|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！