美文网首页
数据分析思路

数据分析思路

作者: Ryan96 | 来源:发表于2020-02-27 11:37 被阅读0次

    一、用多维度比较,筛选出指标较高的类型
    整体:数值关键列去除空值(选大于0)
    各列分别处理:分组计算均值等,再各自标准化
    给各列权重,创建出一个综合指标
    合并为一个数据组作图

    二、空间分析
    前提需要 地图区域的面、街道数据

    1、在地图上分布后各个区域某字段的数量或者密度(线长或计数)
    可以使用空间柱状图、空间热力图
    使用格网,分析工具来计算格点内的数字、线长等
    注意WGS84和投影坐标系的转换,处理时用投影坐标系,导出lat,lng位置用wgs84。

    2、地域某数据的流向图
    可以可视化A到B的流向,按线制作流向,
    道路可以直接用工具转换放入echart使用
    点对点需要用QGIS转换为线再使用(columns全英文、数据无中文、值列名称为value,$length可以计算两点的距离,计算时要用投影坐标,导出再用WGS84,报错可能是因为字段的数据类型为字符)

    3、空间中查看几个字段是否与‘某一个字段’的关系
    绘制空间格网,然后统计多边形内的点依次叠加,修改渐进的样式挨个查看
    各点距市中心距离计算:根据坐标系找到中心点的坐标,然后使用三角定位来计算
    根据计算出来的多个字段跟‘某一个字段’做散点图,查看相关性。确定相关性后,可以再根据这些字段通过给各个距离分段来做图,显示这些字段指标在各距离上的拟合程度
    .corr() x 2

    4、缓冲区分析
    导入数据后,另存为投影转为数据所在地区的坐标(比如上海WGS8451N),然后用转换完的文件,地学数据处理工具-->缓冲区分析,缓冲距离为米。
    然后根据你想分析的点(有ID标识),依次叠加计算多边形内点的个数,添加多个特征(比如新增了三列,某品牌各房源2000m范围内所有医院、加油站、超市的个数)

    三、流水型一维带时间标签的数据
    1、各类型在某个时间点之前或之后的去向
    (双十一前双十一中双十一后)
    按照多个类别分类,
    可以堆叠做图:各类别(A、B、C等等)占各标签的比例

    2、比较两个时段是否有波动,变化率是多少
    先总体分布再各标签分布
    先按照时间分段pd.cut,然后
    data[['id','price','date']].groupby(['id','price']).min(),如果统计之后的两个字段的分组count只有一个值那就是没有波动,如果大于1个值就是有波动,在后面新加一列全部为True
    再把id列与总列按id merge,带TRUE的就是有波动的没有的就是没有波动的

    3、可以做一个各标签下,某列或者计算出来的值的分布情况的图:先总体分布再各标签分布
    例:各品牌双11销售各商品折扣分布
    y品牌 x品牌下各商品折扣度 加个alpha

    4、可以做一个散点图,三个维度,做四个象限来总结分布情况
    5、时间细分,分析出总的结论后,再给时间分段看各时间变化过程

    其他
    符合

    相关文章

      网友评论

          本文标题:数据分析思路

          本文链接:https://www.haomeiwen.com/subject/fxvefhtx.html