美文网首页
第三篇 数据的图标展示

第三篇 数据的图标展示

作者: 没有那么委屈 | 来源:发表于2016-07-11 11:18 被阅读301次

    通过各种渠道将数据收集上来之后,接下来的任务就是对数据进行加工整理。使之符合统计分析的需要,同时对数据进行图标展示,以发现数据中的一些基本特征,为进一步分析提供思路。

    1数据的的预处理:审核-筛选-排序

    数据的审核

    数据的审核就是检查数据中是否有错误。

    对于通过调查获取的原始数据(raw data),应主要从完整性和准确性两个方面去审核。完整性审核主要是检查应调查单位或个体是否有遗漏,所有的调查项目是否填写齐全等。准确性审核主要检查数据是否有错误,是否存在异常值等。对于异常值要仔细的鉴别:如果异常值属于记录时的错粗,在分析之前应该予以纠正;如果异常值是一个正确的值,则应该予以保留。

    对于通过其他渠道得来的二手数据,应着重审核数据的适用性和时效性。

    数据的筛选(data filter):包含两方面的内容:一是将某些部分和要求的数据或有明显错误的数据予以剔除;而是将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除,数据的筛选可借助计算机自动完成。

    透视表的计算与练习

    2品质数据的整理与展示

    对品质数据主要做分类整理,对数值型数据则主要做分组整理。品质数据包括分类数据和顺序数据。

    分类数据的整理与图示

    分类数据本身就是对事物的一种分类,因此,在整理时首先列出所分的类别,然后计算出每一类别的频数、频率或比例、比率等,即可形成一张频数分布表,最后根据需要选择适当的图形进行展示,以便对数据即其特征有一个初步的了解。

    由连个个或两个以上变量交叉分类的频数分布表也称为列联表(contingency  table);二维的列联表(两个变量交叉分类)也称为交叉表(cross table)。

    分类数据相关图标介绍

    (1)条形图(bar chart)是用宽度相同的条形的高度或长短来表示数据多少的图形。当条形图横置或纵置时称为柱状图(column chart)。

    (2)帕累托图(pareto chart)该图是按照各类数据出现的频数多少排序后绘制的条形图。

    (3)饼图(pie chart)

    (4)环形图 (doughnut  chart)

    顺序数据的整理与图示

    上面介绍的分类数据的频数分布和图示方法,如频数、比例、百分比、比率、条形图和饼图,也都是用于顺序数据的整理与显示。对于顺序数据,除了可使用上面整理和显示技术,还可以计算累计频数和累计频率。

    累计频数(cumulative frequencies)是将各累有序类别或组的频数逐级累加起来得到的频数。通过累积频数,可以很容易看出某一类别(或数值)一下或某一类别(或数值)以上的频数之和。

    累计频率或累积百分比(cumulative percentages)是将各有序类别或组的百分比逐级累加起来,它也有向上累积和向下累积两种方法。

    3数值型数据的整理与展示

    数据的分组

    将原始数据按照某种标准化分成不同组别,分组后的数据成为分组数(grouped data)。数据分组的主要目的是观察数据的分布特征。数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表。数据精分组后再计算出各组中数据出现的频数,就形成了一个频数分布表。数据分组的方法有单变量分组和组距分组两种。单变量分组是把每一个变量值作为一组,这种分组通常只适合离散变量,且唉变量值较少的情况下使用。在连续变量或变量值较多的情况下,通常采取组距分组。它是将全部变量值一次划分为若干个区间,并将这一区间的变量值作为一组。在组距分组中,一个组的最小值成为下限(lower limit);一个组的最大值称为上限(upper limited)

    第一步:组数的确定。一般情况下:5到15组

    第二步:确定各组的组距。组距(class width)是一个上限与下限的差。

    第三步:根据分组整理频数分布表。

    采用组距分组时,需要遵循不重不漏的原则。补充是指一项数据只能在其中的某一组,不能在其他组中重复出现;不漏是指组别能够穷尽,即在所分的全部组别中没想数据能分在其中的某一组,不能遗漏。

    为了解决不重的问题,统计分组时习惯上规定“上组限不在内”。

    在组距分组时,如果个组的组距相等则成为等距分组。有时,对于某些特殊现象或为了特定的研究需要,也可以采用不等距分组。

    组距分组掩盖了各组内的数据分布状况,为了反映各组数据的一般水平,我们通常采用组中值作为给组数据的一个代表值。组中值(classmidpoint)

    需要注意的是试用组中值代表一组数据时有一个必要的假设条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假设,用组中值作为一组数据的代表会有一定的误差。

    为了统计分析的需要,有时需要观察某一数值一下或者以上的频数或频率之和,这时候可以计算出了极品书或者累积频率。

    数值型数据的图示

    (1)分组数据:直方图(histogram)

    (2)未分组数据:茎叶图和箱线图

    茎叶图 (tem and leafdisplay是反映原始数据分布的图形。它由茎和叶两部分组成。通过茎叶图,可以看出数据的分布形状即数据的离散状况。比如,分布是否对称,数据是否集中,是否有离散等等。

    绘制茎叶图的关键是设计好树茎,而且也上只保留该数值的最后一个数字。例如,125分成12/5,12分成1/2,1.25分成12/5(单位:0.01),等等。前部分是树精,后部分是树叶。树茎一旦确定,树叶就自然地长在相应的树茎上了。

    茎叶图类似与横置直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原是数值,即保留了原始数据信息。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。

    箱线图(box plot)是一组数据的最大值(maxiumu)、最小值(minimum)、中位数(median)和四分卫数(quartiles)。这五个特征值绘制而成的箱线图,主要反映原始数据的特征,还可以进行多组数据分布特征的比较。

    (3)时间序列数据:线图(line plot)

    如果数值型数据是在不同的时间上取得的,即时间序列数据,则可以绘制线图。线图主要用于反映现象随时间变化的特征。

    4多变量数据的图表

    上面介绍的一些图形描述都是单变量数据。当有两个或两个以上变量时,可以采取用多变量的图示方法,常见的有散点图、气泡图、雷达图等。

    (1)散点图(scattered diagram)

    (2)气泡图(bubble chart)可用于展示三个变量之间的关系。它与散点图绘制时候类似,将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用旗袍的大小来表示

    (3)雷达图(radar chart)是显示多个变量常用的图示方法,也称为蜘蛛图(spider chart)。


    选择合理的图表

    4合理使用图标表

    一个好的图标具备的特征:

    (1)显示数据

    (2)让读者把注意力集中在图形的内容上,而不是制作图形的程序上

    (3)避免歪曲

    (4)强调数据之间的比较

    (5)服务于一个明确的目的

    (6)有对图形的统计描述和文字说明

    统计表的设计

    统计表主要由四部分组成:即表头、航标题、列标题和数字资料,此外在有必要的收购可以在统计表的下方加上表外附加。


    相关文章

      网友评论

          本文标题:第三篇 数据的图标展示

          本文链接:https://www.haomeiwen.com/subject/qhfjjttx.html