Python BeautifulSoup

作者: 喵王不瞌睡 | 来源:发表于2018-09-19 14:02 被阅读0次

Python 抓取花瓣图片地址
Python实战计划学习笔记（2）网页解析
爬取百度图片各种狗狗的图片，使用caffe训练模型分类
windows 下 beautifulsoup 安装
2020-05-27 学习python爬虫系列（四）：Beaut
Python爬取图虫网摄影作品
Python 爬虫
将兴趣变为工作-我的阅读APP开发之路(三)
男子大学生的無駄日常
Python3爬虫神器之BeautifulSoup（一）——初识

代码示例

#!/usr/bin/python  
# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup
#soup = BeautifulSoup(open('page.html'),'lxml')
soup = BeautifulSoup(html, "lxml")

# 根据标签获取标题
print soup.head.string

# 标签名为a
# class为关键字加_,样式为sister
# href包含example
# recursive=False,只查询body的直接下级
for tag in soup.body.find_all(name='a',class_='sister',href=re.compile('example'),recursive=False):
    print tag.attrs['href']

#获取https://www.wxqfb.com/weixin/index/id/139.html的示例代码
data = list();
for item in soup.select('.newsllist li'):
    link = item.a['href']
    image = item.a.img['src']
    #title = item.a.find('div',class_='title').contents[0]
    title = item.a.select('div.title')[0].contents[0]
    data.append({'link':link,'image':image,'title':title})
f = open('home.json','w+')
f.write(json.dumps(data))
f.close()

简介

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

文档

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

网友评论

本文标题：Python BeautifulSoup

本文链接：https://www.haomeiwen.com/subject/cgkinftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python BeautifulSoup

代码示例

简介

文档

相关文章

Python 抓取花瓣图片地址

Python实战计划学习笔记（2）网页解析

爬取百度图片各种狗狗的图片，使用caffe训练模型分类

windows 下 beautifulsoup 安装

2020-05-27 学习python爬虫系列（四）：Beaut

Python爬取图虫网摄影作品

Python 爬虫

将兴趣变为工作-我的阅读APP开发之路(三)

男子大学生的無駄日常

Python3爬虫神器之BeautifulSoup（一）——初识

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读