美文网首页
Python数据分析流程及常用库介绍

Python数据分析流程及常用库介绍

作者: 卡门001 | 来源:发表于2023-05-22 02:32 被阅读0次

    数据分析的价值

    • 用户行为分析:优化业务,提升用户体验
    • 业务数据分析:提前规避风险,识别机会
      合理利用数据分析技术,还能为公司内部提高投入产出比(RIO)

    数据分析遵循以下三个主要过程:

    1. 数据采集
    2. 数据挖掘
    3. 数据可视化

    数据采集

    • 数据采集可以基于公司积累的数据,也可以基于公开数据
    • 通常会采⽤两者结合⽅式,让数据类别更丰富

    采集数据时需遵守《中华⼈⺠共和国个⼈信息保护法》

    数据挖掘

    • 数据(业务逻辑)理解
    • 数据准备
    • 建⽴模型
    • 数据清洗
    • 数据存储
    • 模型评估

    数据可视化

    • 建⽴各类图表
    • 按不同的维度展示图表

    常用库:

    数据分析的每个过程均有 Python 库⽀持,可以通过 Python实现数据分析的全部技术栈

    • 数据采集:requests
    • 数据挖掘:re、BeautifulSoup、pandas、Scikit-learn
    • 数据可视化:matplotlib、Seaborn

    数据采集的⽅法之HTTP 协议速查

    • HTTP 协议速查
    import requests
    r = requests.get('https://time.geekbang.org', auth=('user', 'pass'))
    r.status_code #200
    r.headers['content-type'] #'application/json; charset=utf8'
    r.encoding # ’utf-8’
    r.text #’{"authenticated": true, …'
    r.json() #{'authenticated': True, ...}
    
    • ⽹⻚⽂字的提取
    通过 r.text 可以提取⽹⻚的内容,*⼤部分和使⽤浏览器查看源代码相同
    ⽹⻚包含样式和数据两类内容,要想实现⽂字内容的提取,必须将样式剔除
    *注:部分⽹⻚使⽤了特定浏览器访问机制
    
    • ⽹⻚图⽚的提取
      ⽹⻚中的图⽚采⽤ <img>标签存放
      为了⽅便管理,多张图⽚在⽹⻚源代码中存放时也有特定的规律

    数据展示 - Matplotlib

    • Matplotlib 是 Python ⾥最常⽤的 2D 绘图库
    • 主要由画布、坐标系、坐标轴组成
    • ⼀块画布上可以有⼀个或多个坐标系,每个坐标系上⾯有⼀个坐标轴

    • Notebook 不会像 Python 终端⼀样⾃动展示图表
    • 如果你⽤ Notebook 运⾏ Matplotlib 库,需要在绘图时增加函数 figure.show()

    例:展示天气数据

    1. 从db中读取数据 ==》将数据转换为字典 ==》 用Matplotlib绘图

    基于该城市当年每⽉⽓温变化,绘制图表如下:


    图片.png

    更多样图

    https://matplotlib.org/stable/gallery/index
    

    相关文章

      网友评论

          本文标题:Python数据分析流程及常用库介绍

          本文链接:https://www.haomeiwen.com/subject/nsvzsdtx.html