自学Python:爬取网页里的内容

作者: 小强聊成长 | 来源:发表于2021-08-14 13:07 被阅读0次

自学Python:爬取网页里的内容
简单的爬虫例子
爬取豆瓣电影top250提取电影分类进行数据分析
爬取网页内容
Python爬取链家网上海市租房信息
python网络爬虫爬取网页内容
集搜客爬取数据方法
Python爬取斗鱼直播静态网页，零基础小白看了都能立马写！
爬取不可视化爬虫源码，复制粘贴就能用！python 暴力爬_极简
第二课：爬虫：（俊）爬取简书漫画专栏

以下面的网址为例：http://www.gaosan.com/gaokao/196075.html

内容如图

爬取大学的排名并且输出。输入代码：

import requests

from bs4 import BeautifulSoup

import bs4

def getHTMLText(url):

try:

r = requests.get(url, timeout=30)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return ""

def fillUnivList(ulist, html):

soup = BeautifulSoup(html, "html.parser")

for tr in soup.find('tbody').children:

if isinstance(tr, bs4.element.Tag):

tds = tr('td')

ulist.append([tds[0].string, tds[1].string, tds[2].string, tds[3].string])

def printUnivList(ulist, num):

tplt = "{0:^10}\t{1:^10}\t{2:^10}\t{3:^10}"

print(tplt.format("排名", "学校名称", "总分","星级", chr(12288)))#chr(12288)是指定中文空格补齐

for i in range(num):

u = ulist[i]

print(tplt.format(u[0], u[1], u[2], u[3], chr(12288)))

def main():

uinfo = []

url = 'http://www.gaosan.com/gaokao/196075.html'

html = getHTMLText(url)

fillUnivList(uinfo, html)

printUnivList(uinfo, 100) #指定访问前100

main()

查看结果如下：

_______________END______________

网友评论

本文标题：自学Python:爬取网页里的内容

本文链接：https://www.haomeiwen.com/subject/ucffbltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

自学Python:爬取网页里的内容

相关文章