第三课 Python爬虫Beautifulsoup4模块的使用

第三课 Python爬虫Beautifulsoup4模块的使用

作者: DYBOY | 来源:发表于2017-09-06 14:42 被阅读45次

第三课 Python爬虫Beautifulsoup4模块的使用
QQ空间爬虫，打造历时说说词云图，python来唤醒你的记忆！
python 爬虫练习（一）
Python第二天（爬虫相关）
python网络爬虫基础模块安装
Python爬虫系列1-安装爬虫模块
【读书笔记】_爬虫
Java面试题：Python中爬虫框架或模块的区别
python学习笔记（二）——requests模块
Python爬虫基础(一)

Beautifulsoup作用：

将网页（非结构化内容）转化成结构化内容

.text取得bs对象的文字内容（去除HTML标签）

现在令一个新的字符串：

html sample ='

Hello World!

将字符串转化为bs对象：

soup = BeautifulSoup(html_sample)

去除警告信息的方法：

原因：因为没有指定“剖析器”

解决：

soup = BeautifulSoup(html_sample,'html.parser')

找寻特定元素：

#使用select找出含有h1标签的元素

alink = soup.select('h1')

print(alink)

Print(alink[0])

输出的是内容，没有中括号

print(alink[0].text)

输出标签内的文字

#使用select找出含有a标签的元素

alink = soup.select('a')

print(alink)

#使用select找出id="title"的内容(id前面需要加上#)感觉就类似CSS语法

alink = soup.select('#title')

print(alink)

#使用select找出class="link"的内容(class前面需要加上.)

alink = soup.select('.link')

print(alink)

我们看到输出多个结果，以列表的形式存储

相信这样大家就会更加清晰明白了：

循环输出：

for link in alink:

print(link)

.text的利用

获取a标签的href属性：

for link in alink:

print(link['href'])

会把href等属性包装成一个字典故很方便地取到数据！

取属性值：

html_sample2 = ' hello world! hello world2!'

soup2 = BeautifulSoup(html_sample2,'html.parser')

print(soup2.select('a')[0]['id'])

print(soup2.select('a')[1]['id'])

注：本文属于原创文章，转载请注明本文地址！

作者QQ:1099718640

CSDN博客主页：http://blog.csdn.net/dyboy2017

Github开源项目：https://github.com/dyboy2017/spider

相关文章

第三课 Python爬虫Beautifulsoup4模块的使用
Beautifulsoup作用：将网页（非结构化内容）转化成结构化内容 .text取得bs对象的文字内容（去除H...
QQ空间爬虫，打造历时说说词云图，python来唤醒你的记忆！
本次python爬虫需要的环境是： selenium模拟登录+BeautifulSoup4爬取数据+wordclo...
python 爬虫练习（一）
通过python 爬虫爬取小说使用python版本为3.6 模块为 Requests,BeautifulSo...
Python第二天（爬虫相关）
单行注释# 爬虫需要掌握的技术 1. python基础语法 2. HTML结构 3. 爬虫模块的使用爬虫相关安...
python网络爬虫基础模块安装
python网络爬虫基础模块安装 python的网络爬虫一般需要requests模块，urllib，urllib2...
Python爬虫系列1-安装爬虫模块
Python的爬虫模块有多种，现在我们使用以下模型进行安装。安装requests模块：pip install r...
【读书笔记】_爬虫
使用urllib模块爬取图片并下载到本地 python爬虫框架-Scrapy学习自：http://python.j...
Java面试题：Python中爬虫框架或模块的区别
**(1)爬虫框架或模块** Python自带爬虫模块：urllib、urllib2 ; 第三方爬虫模块：requ...
python学习笔记（二）——requests模块
python的requests模块是爬虫的基本模块，让我们看看怎么用！参考：Python3 网络爬虫开发实战介绍...
Python爬虫基础(一)
本文简单介绍了requests的基本使用,python爬虫中requests模块绝对是是最好用的网络请求模块，可以...

网友评论

本文标题：第三课 Python爬虫Beautifulsoup4模块的使用

本文链接：https://www.haomeiwen.com/subject/lqxvjxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|第三课 Python爬虫Beautifulsoup4模块的使用|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！