数据分析的价值
- 用户行为分析:优化业务,提升用户体验
- 业务数据分析:提前规避风险,识别机会
合理利用数据分析技术,还能为公司内部提高投入产出比(RIO)
数据分析遵循以下三个主要过程:
- 数据采集
- 数据挖掘
- 数据可视化
数据采集
- 数据采集可以基于公司积累的数据,也可以基于公开数据
- 通常会采⽤两者结合⽅式,让数据类别更丰富
采集数据时需遵守《中华⼈⺠共和国个⼈信息保护法》
数据挖掘
- 数据(业务逻辑)理解
- 数据准备
- 建⽴模型
- 数据清洗
- 数据存储
- 模型评估
数据可视化
- 建⽴各类图表
- 按不同的维度展示图表
常用库:
数据分析的每个过程均有 Python 库⽀持,可以通过 Python实现数据分析的全部技术栈
- 数据采集:requests
- 数据挖掘:re、BeautifulSoup、pandas、Scikit-learn
- 数据可视化:matplotlib、Seaborn
附
数据采集的⽅法之HTTP 协议速查
- HTTP 协议速查
import requests
r = requests.get('https://time.geekbang.org', auth=('user', 'pass'))
r.status_code #200
r.headers['content-type'] #'application/json; charset=utf8'
r.encoding # ’utf-8’
r.text #’{"authenticated": true, …'
r.json() #{'authenticated': True, ...}
- ⽹⻚⽂字的提取
通过 r.text 可以提取⽹⻚的内容,*⼤部分和使⽤浏览器查看源代码相同
⽹⻚包含样式和数据两类内容,要想实现⽂字内容的提取,必须将样式剔除
*注:部分⽹⻚使⽤了特定浏览器访问机制
- ⽹⻚图⽚的提取
⽹⻚中的图⽚采⽤<img>
标签存放
为了⽅便管理,多张图⽚在⽹⻚源代码中存放时也有特定的规律
数据展示 - Matplotlib
- Matplotlib 是 Python ⾥最常⽤的 2D 绘图库
- 主要由画布、坐标系、坐标轴组成
- ⼀块画布上可以有⼀个或多个坐标系,每个坐标系上⾯有⼀个坐标轴
• Notebook 不会像 Python 终端⼀样⾃动展示图表
• 如果你⽤ Notebook 运⾏ Matplotlib 库,需要在绘图时增加函数 figure.show()
例:展示天气数据
- 从db中读取数据 ==》将数据转换为字典 ==》 用Matplotlib绘图
基于该城市当年每⽉⽓温变化,绘制图表如下:

更多样图
https://matplotlib.org/stable/gallery/index
网友评论