BeautifulSoup爬虫入门

BeautifulSoup爬虫入门

作者: Minka__ | 来源:发表于2019-02-25 19:15 被阅读0次

Python爬虫入门（urllib+Beautifulsoup）
无标题文章
scrapy折腾系列01
BeautifulSoup爬虫入门
Pyhton爬虫之requests与BeautifulSoup
Python爬虫基础教程——lxml爬取入门
爬虫入门（三）：BeautifulSoup
beautifulsoup教程
Python+PhantomJS+selenium+Beauti
BeautifulSoup requests 爬虫初体验

01

—

初识BeautifulSoup

［１］scrapy学会了，这里理解起来很容易，大同小异罢了．将返回的response.read用解析器进行解析，学习一下beautifulsoup库如何筛选数据，也就是如何找到标签，标签的属性，文本这些．下面图中列出了常用的几个用法，之后实例中再补充．

［２］：find_all()的结果以列表的形式输出，所以可以遍历（循环）．

可以看到，第一个li标签就是啥也没有，列表的每一个元素都以逗号隔开，之所以print换行是因为\n的缘故．

［３］：提取文本和属性值

提取属性值：直接在标签后面加上［＇属性名＇］就可以了，点取标签（直接就是soup.a这样形式）或者find()都可以．这里不能使用find_all（），因为它的输出是列表，后面加［］会被当成索引处理，报错．

分隔符只是为了证明两种写法都可以提取出href的属性值

提取文本：get_text() 和string

看一眼这个get_text()的说明，也就知道我后面bug产生的原因了（因为返回的是unicode字符串～）

调用这个方法，当前标签里的所有子孙tag的文本内容也提取出来了

可以看出，string的条件更为苛刻，最好是定位到当前标签，才能提取到文本．这里只需要知道一个概念就是在bs4中，文本也是一种节点，叫做NavigableString节点．

解释地明明白白！

关于bs4的用法有很多，像parents,siblings等等,还是慢慢探索吧～

［reference］BeautifulSoup的中文说明文档

https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

02

—

爬虫脚本详解

目前还不太熟悉在多个函数中游走，所以只简单的用了一个类，而且这个例子很简单，也没翻页，也没加headers和代理ip，只需要把结果写入文件就可以了．

03

—

学习过程中的bug

［１］:运行过程中出现了这个问题，这个问题的解决方法网上可以直接查到，当然，这个一看就是编码方式出的问题，可以通过修改sys的setdefaultencoding('utf8')解决这个问题，但是一般我们python文件开头就已经指明了-*-conding:utf-8

-*-，为什么不是按照utf8编码，而又成了默认的ascii编码了呢？后来我发现这个问题是因为写入文件导致的．（python都是将字符串解码为unicode再编码的，意思是只有当unicode对象是中文时写入才会报错）

前面加u就代表后面内容是一个unicode对象．

以上例子说明，终端的中文输出没有问题的，但是写入文件时的中文就会报这个错误，此时需要我们再次指定编码方式．你可以修改sys，也可以直接在输出的变量后面加上.encode('utf8')就可以了．

欢迎关注我的公众号：听见我的voices

相关文章

Python爬虫入门（urllib+Beautifulsoup）
Python爬虫入门（urllib+Beautifulsoup）本文包括：1、爬虫简单介绍2、爬虫架构三大模块3...
无标题文章
--- title: 零基础入门python爬虫（三） tags: - BeautifulSoup - easy_...
scrapy折腾系列01
scrapy爬虫折腾 1、scrapy爬虫入门 scrapy是框架，好比一辆车子，beautifulsoup好比一...
BeautifulSoup爬虫入门
01 — 初识BeautifulSoup ［１］scrapy学会了，这里理解起来很容易，大同小异罢了．将返回的re...
Pyhton爬虫之requests与BeautifulSoup
requests与BeautifulSoup基础入门 1. 前言最近在学习python爬虫，以前实现python...
Python爬虫基础教程——lxml爬取入门
大家好，上次介绍了BeautifulSoup爬虫入门[https://www.jianshu.com/p/6f5b...
爬虫入门（三）：BeautifulSoup
date: 2016-10-10 08:49:53 BeautifulSoup，网页解析器，DOM树，结构化解析。...
beautifulsoup教程
beautifulsoup教程 BeautifulSoup4是爬虫必学的技能。BeautifulSoup最主要的功...
Python+PhantomJS+selenium+Beauti
Python+PhantomJS+selenium+BeautifulSoup实现简易网络爬虫简易网络小爬虫，目...
BeautifulSoup requests 爬虫初体验
BeautifulSoup requests 爬虫初体验说爬虫不得不提python 常用的Python爬虫库(摘...

网友评论

程序员

本文标题：BeautifulSoup爬虫入门

本文链接：https://www.haomeiwen.com/subject/jijurqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

程序员

关于我们|服务条款|联系我们|BeautifulSoup爬虫入门|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！