pm2.5 小型爬虫

作者: 六价铬 | 来源:发表于2017-02-03 17:56 被阅读0次

pm2.5 小型爬虫
常用python爬虫框架整理
十个Python爬虫武器库示例，十个爬虫框架，十种实现爬虫的方法
klein基本使用
基于vue前端框架/scrapy爬虫框架/结巴分词实现的小型搜索
爬虫项目的介绍
scrapy 源代码阅读笔记（0）-- 背景
python爬虫知识体系
十个Python爬虫武器库示例，十个爬虫框架，十种实现爬虫的方法
研究解读：为什么室内PM2.5大于室外？

@(Python)[web scrapy|python]

抓取空气质量信息@www.pm25.in

仅做测试使用。

import requests # 引入requests获取网站内容
import re # 引入re正则表达式模块

url = 'http://www.pm25.in/api/querys/all_cities.json?token=5j1znBVAsnSf5xQyNQyq' # token是该网站的公用API。该地址获取的是所有城市的空气质量信息。

r = requests.get(url) # 获得方式为GET

print(r.text)

inputTxt = re.compile((r'{.*?}') # 分割r.text中每个城市的信息
cityTxt = re.compile(r'"area":"(.*?)"') # 设置城市字段的提取规则
pm25Value = re.compile(r'"pm2_5_24h":(\d+)') # 设置24小时内的pm2.5均值字段的提取规则

content = {}
for i in re.findall(inputTxt, r.text):
    content[re.findall(cityTxt,i)[0]]=re.findall(pm25Value,i)[0] # 创建字典，形式为 city : pm2.5

pm2.5 小型爬虫
@(Python)[web scrapy|python] 抓取空气质量信息@www.pm25.in 仅做测试使用。...
常用python爬虫框架整理
Python中好用的爬虫框架一般比价小型的爬虫需求，我是直接使用requests库 + bs4就解决了，再麻烦点...
十个Python爬虫武器库示例，十个爬虫框架，十种实现爬虫的方法
Python中好用的爬虫框架一般比价小型的爬虫需求，我是直接使用requests库 + bs4就解决了，再麻烦点...
klein基本使用
klein文档klein是一个小型的web框架，在服务器运行爬虫脚本的时候，可能没办法监测爬虫状态，使用Klein...
基于vue前端框架/scrapy爬虫框架/结巴分词实现的小型搜索
小型搜索引擎(tinySearchEngine) 基于scrapy爬虫框架，结巴分词，php和vue.js实现的小...
爬虫项目的介绍
这个篇幅呢我们打算用Go做一个实战的项目，我们选择的是一个分布式的网络爬虫但是这个只是一个比较小型的爬虫，我们要爬...
scrapy 源代码阅读笔记（0）-- 背景
初探 scrapy可以服务与中小型爬虫项目，异步下载性能很出色，（50M电信，scrapy单进程，半小时，最高纪录...
python爬虫知识体系
一般小型的爬虫需求，直接使用requests库 + bs4就解决了, 再麻烦点就使用selenium解决js的异步...
十个Python爬虫武器库示例，十个爬虫框架，十种实现爬虫的方法
一般比价小型的爬虫需求，我是直接使用requests库 + bs4就解决了，再麻烦点就使用selenium解决js...
研究解读：为什么室内PM2.5大于室外？
早期，清华大学发布首个室内PM2.5污染公益调研报告。结果显示，相对于室外PM2.5污染，室内PM2.5污染对人的...