数据与统计资料
关键术语
统计学(statistics):搜集、分析、表述和解释数据的艺术和科学。
数据(data):是为了描述和解释所搜集、分析、汇总的事实和数字。
数据集(data set):在特定研究中搜集到的所有数据。
个体(elements):搜集数据的实体。
变量(variable):个体中所感兴趣的特征。
观测值(observation):对某一特定个体搜集的测量值的集合。
名义尺度(nominal scale):指用数据的标记或名称来识别个体属性的一种变量测量尺度,名义数据既可以是非数值型的,也可以是数值型的。
顺序尺度(ordinal scale):具有名义数据的性质,并能显示数据的顺序或等级有明确意义的一种变量测量尺度。顺序数据既可以是非数值型的,也可以是数值型的。
间隔尺度(interval scale):具有顺序数据的性质,并可以按某一固定度量单位表示数值间的间隔的一种变量测量尺度。间隔尺度永远是数值型。
比率尺度(ratio scale):具有所有间隔数据的性质,并且两个数值之比是有意义的一种变量测量尺度。比率数据永远是数值型的。
分类型数据(categorical data):用于识别每一个体属性的标记或名称。分类型数据既可以用名义尺度度量也可以用顺序尺度度量,既可以是非数值型的也可以是数值型的。
数量型数据(quantitative data):表示事物大小或多少的数值。数量型数据既可以用间隔尺度度量,也可以用比率尺度度量。
分类变量(categorical variable):用分类型数据表示的变量。
数量变量(quantitative variable):用数量型数据表示的变量。
截面数据(cross-sectional data):在相同或近似相同的同一时点上搜集的数据。
时间序列数据(time series data):在几个时期内搜集的数据。
描述统计(descriptive statistics):数据的表格、图形和数值汇总的方法。
总体(population):在一个特定研究中所有感兴趣的个体组成的集合。
样本(sample):总体的一个子集。
普查(census):搜集总体全部数据的调查。
抽样调查(sample survey):搜集样本数据的调查。
统计推断(statistical inference):利用样本数据估计或对总体特征进行假设检验的过程。
数据挖掘(data mining):利用统计和计算机科学的方法从非常大的数据库中获取有用信息的过程。
描述统计学1:表格法和图形法
关键术语
数据可视化(data visualization):用于描述汇总和表述一个数据集信息的图形显示的效用的术语。
频数分布(frequency distribution):一种数据的表格汇总方法,表示在几个互不重叠组别中,每一组数据值的个数(频数)
相对频数分布(relative frequency distribution):一种数据的表格汇总方法,表示在几个互不重叠组别中,每一组数据值个数的分数或所占比例。
百分数频数分布(percent frequency distribution):一种数据的表格汇总方法,表示在几个互不重叠组别中,每一组数据值的个数所占的百分数。
条形图(bar graph):一种图形方法,用来描述已被汇总成频数分布、相对频数分布或百分数频数分布的分类型数据。
饼形图(pie graph):一种汇总数据的图形,该方法的依据是把一个圆细分为若干个扇形,使得每一组的相对频数与一个扇形相对应。
组中值(class midpoint):下组限和上组限的中间值。
打点图(dot plot):用横轴上每个数值上方的点的个数来汇总数据的一种图形方法。
直方图(histogram):一种描述数量型数据的频数分布、相对频数分布或百分数频数分布的图形方法,组宽放置在横轴上,频数、相对频数或百分数频数放置在纵轴上。
累积频数分布(cumulative frequency distribution):一种数量型数据的表格汇总方式,表示小于或等于每一组上组限的数据值的个数。
累积相对频数分布(cumulative realtive frequency distribution):一种数量型数据的表格汇总方式,表示小于或等于每一组上组限的数据值的分数或比例。
累积百分数频数分布(cumulative percent frequency distribution):一种数量型数据的表格汇总方式,表示小于或等于每一组上组限的数据值的百分数。
茎叶显示(stem-and-leaf display):一种同时用于展示数据的等级排序和分布形态的图形显示。
交叉分组表(crosstabulation):一种对两个变量的数据进行的表格汇总,其中一个变量的组用行来描述,另一个变量的组用列来描述。
辛普森悖论(Simpson's paradox):从两个或两个以上单独的交叉分组表得到的结论可能与将数据综合成一个单一交叉分组表得出的结论截然相反。
散点图(scatter diagram):两个数量变量之间关系的图形表示,其中一个变量用横轴表示,另一个变量用纵轴表示。
趋势线(trendline):表示两个变量之间近似关系的一条直线。
复合条形图(side-by-side bar chart):描绘多个条形图同时显示的一种图形显示方式。
结构条形图(stacked chart):一种条形图,其每一个长条被分解成不同颜色的矩形段,与饼形图类似的方式显示每一组的相对频数。
数据仪表板(data dashboard):一个用易于阅读、了解和解释的方式组织和表示用于监控公司或机构业绩的直观显示集合。
重要公式
相对频数:组频数 / n
近似组宽:(数据最大值 - 数据最小值) / 组数
创建有效的图形显示
- 给予图形显示一个清晰、简明的标题
- 使图形显示保持简洁,当能用二维表示时不要用三维表示
- 每个坐标轴有清楚的标记,并给出测量的单位
- 如果使用颜色来区分类别,要确保颜色是不同的。
- 如果使用多种颜色或线型,用图例来标明时,要将图例靠近所表示的数据。
选择图形显示的类型
用于展示数据分布的图形显示
- 条形图:用于展示分类型数据的频数分布和相对频数分布
- 饼形图:用于展示分类型数据的相对频数分布和百分数频数分布
- 打点图:用于展示数值型数据在整个数据范围内的分布
- 直方图:用于展示数值型数据在一个区间组集合上的频数分布
- 茎叶显示:用于展示数值型数据的等级顺序和分布形态
用于进行比较的图形显示
- 复合条形图:用于两个变量的比较
- 结构条形图:用于比较两个分类变量的相对频数和百分数频数
用于展示相关关系的图形显示
- 散点图:用于展示两个数量变量的相关关系
- 趋势线:用于近似散点图中的数据的相关关系
网友评论