@(Python)[web scrapy|python]
抓取空气质量信息@www.pm25.in
仅做测试使用。
import requests # 引入requests获取网站内容
import re # 引入re正则表达式模块
url = 'http://www.pm25.in/api/querys/all_cities.json?token=5j1znBVAsnSf5xQyNQyq' # token是该网站的公用API。该地址获取的是所有城市的空气质量信息。
r = requests.get(url) # 获得方式为GET
print(r.text)
inputTxt = re.compile((r'{.*?}') # 分割r.text中每个城市的信息
cityTxt = re.compile(r'"area":"(.*?)"') # 设置城市字段的提取规则
pm25Value = re.compile(r'"pm2_5_24h":(\d+)') # 设置24小时内的pm2.5均值字段的提取规则
content = {}
for i in re.findall(inputTxt, r.text):
content[re.findall(cityTxt,i)[0]]=re.findall(pm25Value,i)[0] # 创建字典,形式为 city : pm2.5
@ All rights reserved.
网友评论