Python爬虫系列（七）：提高解析效率

Python爬虫系列（七）：提高解析效率

作者: 阿尔卑斯山上的小灰兔 | 来源:发表于2017-10-24 22:33 被阅读71次

Python爬虫系列（七）：提高解析效率
Python网络数据采集之图像识别与文字处理
认识Scrapy框架
Python爬虫学习系列教程
资料
python爬虫系列（3）- 网页数据解析（bs4、lxml、J
Python网络爬虫实战之十四：Scrapy结合scrapy-s
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
Python网络爬虫实战之九：Selenium进阶操作与爬取京东

如果仅仅因为想要查找文档中的标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把标签以外的东西都忽略掉. SoupStrainer 类可以定义文档的某段内容,这样搜索文档时就不必先解析整篇文档,只会解析在 SoupStrainer 中定义过的文档. 创建一个 SoupStrainer 对象并作为 parse_only 参数给 BeautifulSoup 的构造方法即可

目标文档

from bs4 import BeautifulSoup, NavigableString

from bs4 import SoupStrainer

only_a_tags = SoupStrainer("a")

only_tags_with_id_link2 = SoupStrainer(id="link2")

def is_short_string(string):

return len(string) < 6

only_short_strings = SoupStrainer(text=is_short_string)

soup = BeautifulSoup(html_doc, "lxml")

print('1------------找到所有a元素')

print(BeautifulSoup(html_doc, "html.parser", parse_only=only_a_tags).prettify())

print('2------------找到id=link2的元素')

print(BeautifulSoup(html_doc, "html.parser", parse_only=only_tags_with_id_link2).prettify())

print('3------------找到元素长度小于10的元素')

print(BeautifulSoup(html_doc, "html.parser", parse_only=only_short_strings).prettify())

今天，我们的爬虫系列基础就算告一段落。这些，就是公司培训新手的教程。实际上，在项目的实际过程中，还有太多坑，知识库里面的东西后面逐步分享出来。

码字不易，期盼点赞

相关文章

Python爬虫系列（七）：提高解析效率
如果仅仅因为想要查找文档中的标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把标签以外的东西...
Python网络数据采集之图像识别与文字处理
网络采集系列文章 Python网络数据采集之创建爬虫Python网络数据采集之HTML解析Python网络数据采集...
认识Scrapy框架
开发python，从程序的复杂程度可分为：爬虫项目和爬虫文件。使用Scrapy可以提高开发效率。 Scrapy安...
Python爬虫学习系列教程
转自: 静觅»Python爬虫学习系列教程 Python爬虫学习系列教程 Python版本：2.7 一、爬虫入门 ...
资料
Python爬虫系列（一）初期学习爬虫的拾遗与总结（11.4更） Python爬虫学习系列教程 Python爬虫学习手册
python爬虫系列（3）- 网页数据解析（bs4、lxml、J
python爬虫系列（3）- 网页数据解析（bs4、lxml、Json库）本文记录解析网页bs4、lxml、Js...
Python网络爬虫实战之十四：Scrapy结合scrapy-s
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之七：动态网页爬取案例实战 Seleni
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之八：动态网页爬取案例实战 Seleni
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...
Python网络爬虫实战之九：Selenium进阶操作与爬取京东
目录：Python网络爬虫实战系列 Python网络爬虫实战之一：网络爬虫理论基础 Python网络爬虫实战之二：...

网友评论

本文标题：Python爬虫系列（七）：提高解析效率

本文链接：https://www.haomeiwen.com/subject/azcfpxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Python爬虫系列（七）：提高解析效率|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！