一、用多维度比较,筛选出指标较高的类型
整体:数值关键列去除空值(选大于0)
各列分别处理:分组计算均值等,再各自标准化
给各列权重,创建出一个综合指标
合并为一个数据组作图
二、空间分析
前提需要 地图区域的面、街道数据
1、在地图上分布后各个区域某字段的数量或者密度(线长或计数)
可以使用空间柱状图、空间热力图
使用格网,分析工具来计算格点内的数字、线长等
注意WGS84和投影坐标系的转换,处理时用投影坐标系,导出lat,lng位置用wgs84。
2、地域某数据的流向图
可以可视化A到B的流向,按线制作流向,
道路可以直接用工具转换放入echart使用
点对点需要用QGIS转换为线再使用(columns全英文、数据无中文、值列名称为value,$length可以计算两点的距离,计算时要用投影坐标,导出再用WGS84,报错可能是因为字段的数据类型为字符)
3、空间中查看几个字段是否与‘某一个字段’的关系
绘制空间格网,然后统计多边形内的点依次叠加,修改渐进的样式挨个查看
各点距市中心距离计算:根据坐标系找到中心点的坐标,然后使用三角定位来计算
根据计算出来的多个字段跟‘某一个字段’做散点图,查看相关性。确定相关性后,可以再根据这些字段通过给各个距离分段来做图,显示这些字段指标在各距离上的拟合程度
.corr() x 2
4、缓冲区分析
导入数据后,另存为投影转为数据所在地区的坐标(比如上海WGS8451N),然后用转换完的文件,地学数据处理工具-->缓冲区分析,缓冲距离为米。
然后根据你想分析的点(有ID标识),依次叠加计算多边形内点的个数,添加多个特征(比如新增了三列,某品牌各房源2000m范围内所有医院、加油站、超市的个数)
三、流水型一维带时间标签的数据
1、各类型在某个时间点之前或之后的去向
(双十一前双十一中双十一后)
按照多个类别分类,
可以堆叠做图:各类别(A、B、C等等)占各标签的比例
2、比较两个时段是否有波动,变化率是多少
先总体分布再各标签分布
先按照时间分段pd.cut,然后
data[['id','price','date']].groupby(['id','price']).min(),如果统计之后的两个字段的分组count只有一个值那就是没有波动,如果大于1个值就是有波动,在后面新加一列全部为True
再把id列与总列按id merge,带TRUE的就是有波动的没有的就是没有波动的
3、可以做一个各标签下,某列或者计算出来的值的分布情况的图:先总体分布再各标签分布
例:各品牌双11销售各商品折扣分布
y品牌 x品牌下各商品折扣度 加个alpha
4、可以做一个散点图,三个维度,做四个象限来总结分布情况
5、时间细分,分析出总的结论后,再给时间分段看各时间变化过程
其他
符合
网友评论