美文网首页
Python数据分析流程及常用库介绍

Python数据分析流程及常用库介绍

作者: 卡门001 | 来源:发表于2023-05-22 02:32 被阅读0次

数据分析的价值

  • 用户行为分析:优化业务,提升用户体验
  • 业务数据分析:提前规避风险,识别机会
    合理利用数据分析技术,还能为公司内部提高投入产出比(RIO)

数据分析遵循以下三个主要过程:

  1. 数据采集
  2. 数据挖掘
  3. 数据可视化

数据采集

  • 数据采集可以基于公司积累的数据,也可以基于公开数据
  • 通常会采⽤两者结合⽅式,让数据类别更丰富

采集数据时需遵守《中华⼈⺠共和国个⼈信息保护法》

数据挖掘

  • 数据(业务逻辑)理解
  • 数据准备
  • 建⽴模型
  • 数据清洗
  • 数据存储
  • 模型评估

数据可视化

  • 建⽴各类图表
  • 按不同的维度展示图表

常用库:

数据分析的每个过程均有 Python 库⽀持,可以通过 Python实现数据分析的全部技术栈

  • 数据采集:requests
  • 数据挖掘:re、BeautifulSoup、pandas、Scikit-learn
  • 数据可视化:matplotlib、Seaborn

数据采集的⽅法之HTTP 协议速查

  • HTTP 协议速查
import requests
r = requests.get('https://time.geekbang.org', auth=('user', 'pass'))
r.status_code #200
r.headers['content-type'] #'application/json; charset=utf8'
r.encoding # ’utf-8’
r.text #’{"authenticated": true, …'
r.json() #{'authenticated': True, ...}
  • ⽹⻚⽂字的提取
通过 r.text 可以提取⽹⻚的内容,*⼤部分和使⽤浏览器查看源代码相同
⽹⻚包含样式和数据两类内容,要想实现⽂字内容的提取,必须将样式剔除
*注:部分⽹⻚使⽤了特定浏览器访问机制
  • ⽹⻚图⽚的提取
    ⽹⻚中的图⽚采⽤ <img>标签存放
    为了⽅便管理,多张图⽚在⽹⻚源代码中存放时也有特定的规律

数据展示 - Matplotlib

  • Matplotlib 是 Python ⾥最常⽤的 2D 绘图库
  • 主要由画布、坐标系、坐标轴组成
  • ⼀块画布上可以有⼀个或多个坐标系,每个坐标系上⾯有⼀个坐标轴

• Notebook 不会像 Python 终端⼀样⾃动展示图表
• 如果你⽤ Notebook 运⾏ Matplotlib 库,需要在绘图时增加函数 figure.show()

例:展示天气数据

  1. 从db中读取数据 ==》将数据转换为字典 ==》 用Matplotlib绘图

基于该城市当年每⽉⽓温变化,绘制图表如下:


图片.png

更多样图

https://matplotlib.org/stable/gallery/index

相关文章

网友评论

      本文标题:Python数据分析流程及常用库介绍

      本文链接:https://www.haomeiwen.com/subject/nsvzsdtx.html