Python应用03--超级简单的爬取网页上的数据

作者: young十三 | 来源:发表于2019-07-26 11:43 被阅读0次

Python应用03--超级简单的爬取网页上的数据
Python数据分析基础：网页数据获取
黑科技! 当会Python爬虫遇上会画图的FineBI…
Python爬虫遇上FineBI画图！这就是黑科技的力量！
黑科技！当会爬虫的Python遇上会画图的FineBI……
Python爬虫，FineBI画图，让数据报告更专业一点！
Python爬取网页数据基本步骤及学习资料
手把手系列：用Python3+PyQt5做一个有界面的小爬虫（一
网页爬取数据及入库脚本实战
Python 爬虫去掉爬取数据中的\xa0 \t \n

一、环境准备

1、python3版本

C:\Users\king>python
Python 3.7.3 (v3.7.3:ef4ec6ed12, Mar 25 2019, 22:22:05) [MSC v.1916 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>>

二、爬取天天基金网某只基金的当天的净值估算

图1.png

1、代码

import urllib.request
from bs4 import BeautifulSoup

fund_code = '002851'
url = 'http://fund.eastmoney.com/{}.html?spm=search'.format(fund_code)

page = urllib.request.urlopen(url)
# 获得了整个网页的内容也就是源代码
contents = page.read().decode("utf-8")

# 用来获取web元素
soup = BeautifulSoup(contents, "html.parser")
# 获取span标签下id为gz_gsz的内容
today_nav = soup.find('span', id='gz_gsz').get_text()
print('today_nav = ', today_nav)

效果：

today_nav =  1.4903

2、需要避免的坑

①python 3.x中urllib库和urilib2库合并成了urllib库，所以安装urilib2会失败；

②把urllib2.urlopen() 改成 urllib.request.urlopen()

③python 3.x中request被作为一个模块而不是方法

④python 3.x使用from bs4 import BeautifulSoup，python 2.x使用from bs3 import BeautifulSoup直接导入bs4包即可

⑤编码记得utf-8

三、赠语

不经一番寒彻骨，怎得梅花扑鼻香。

网友评论

本文标题：Python应用03--超级简单的爬取网页上的数据

本文链接：https://www.haomeiwen.com/subject/zapxrctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python应用03--超级简单的爬取网页上的数据

一、环境准备

1、python3版本

二、爬取天天基金网某只基金的当天的净值估算

1、代码

2、需要避免的坑

①python 3.x中urllib库和urilib2库合并成了urllib库，所以安装urilib2会失败；

②把urllib2.urlopen() 改成 urllib.request.urlopen()

③python 3.x中request被作为一个模块而不是方法

④python 3.x使用from bs4 import BeautifulSoup，python 2.x使用from bs3 import BeautifulSoup直接导入bs4包即可

⑤编码记得utf-8

三、赠语

不经一番寒彻骨，怎得梅花扑鼻香。

相关文章

Python应用03--超级简单的爬取网页上的数据

Python数据分析基础：网页数据获取

黑科技! 当会Python爬虫遇上会画图的FineBI…

Python爬虫遇上FineBI画图！这就是黑科技的力量！

黑科技！当会爬虫的Python遇上会画图的FineBI……

Python爬虫，FineBI画图，让数据报告更专业一点！

Python爬取网页数据基本步骤及学习资料

手把手系列：用Python3+PyQt5做一个有界面的小爬虫（一

网页爬取数据及入库脚本实战

Python 爬虫去掉爬取数据中的\xa0 \t \n

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读