分布型数据可视化
分布情况有三种,集中趋势程度,离散程度偏态与峰度三种。直方图、茎叶图(很少用)、箱线图,用于描述离散型数据分布情况。概率密度图用于描述连续型数据分布情况。
名词:集中趋势度量(众数,分位数,平均数),离散程度度量(异众比率,四分位差,极差,平均差,方差,标准差,标准分数,离散系数),偏态峰态度量(偏态,峰态)。
直方图:频数直方图,先将数据分组,数据出现在该分组内的次数。频率直方图,该组内次数除以总次数即为频率,x轴为数据区间。
箱线图,又成为合图。用于展示未分组的原始数据的分布,有五个特征值绘制而出(最大值,最小值,中位数,上四分位数,下四分位数)。箱线图是一种比较好的对比多组数据分布情况的图表。
箱线图示例关系型数据可视化
维恩图,表示包含关系,用面积表示大小,用重叠次数代表不同区域关系。
矩形树图,有点像Tableau方形面积图,数值代表方形颜色及面积。
漏斗图,描述层级关系及转化率。适用于业务流程比较规范,周期长,环节多的流程分析,通过对各个环节业务数据的比较,直观的发现问题所在。
桑基图,描述分流关系的可视化图表,可以表现两个纬度之间数据的流动。比如成本的分类,家庭收入的支出分类
节点关系图,表示两个事物对象之间的关系,有点类似图谱的形式。
地理型数据可视化
地图。
示例:直方图(),箱线图(),概率密度图(),维恩图(),矩形树图(Vintage),漏斗图(转化率),桑基图(会员入口相关属性分析),节点关系图(),地图(地图)
网友评论