1.变异(variation):是社会和生物医学中的普遍现象。
2.总体(population):根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体。
3.样本(sample):从总体中随机抽取的部分研究对象。
4.随机抽样(random sampling):为了保证样本的可靠性和代表性,需要采用随机的方法抽取样本(在总体中每个个体具有相同的机会被抽到)。
5.参数(parameter):总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。固定的常数。
6.统计量(statistic):样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为 s。 参数附近波动的随机变量 。
7.频率(frequency):样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f/n。
8.概率(probability):随机事件发生的可能性大小,用大写的P 表示;取值[0,1]。
9.小概率事件:P ≤ 0.05(5%)或P ≤ 0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。
10.随机误差 (random error):随机误差受测量精确度限制,重复测量获得的实际测量值往往并不能稳定在同一值,而是无方向性地围绕某一个数值左右波动,这种误差称为随机误差 。
11.系统误差 (systematic error):也叫偏倚(bias) , 是测量仪器或人为因素等导致的实际测量值与真实值之差。
12.准确度(accuracy)或真实性(validity):观察值与真值的接近程度,受系统误差的影响(常用指标:如灵敏度、特异度)。
13.可靠度(reliabiliy):也称精密度(precision)或重复性(repeatability) :重复观察时观察值与其均值的接近程度,受随机误差的影响(常用指标:一致百分率、Kappa值)。
14.相关系数(correlation coefficient):又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。相关系数没有单位,其值为-1 r 1。r值为正表示正相关,r值为负表示负相关,r的绝对值等于1为完全相关,r=0为零相关。
15.决定系数(coefficient of determination) :回归平方和与总平方和之比。取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。
16.偏回归系数:
17.剩余标准差( Root MSE ):反映了回归方程的精度,其值越小说明回归效果越好。
18.复相关系数(multiple correlation coefficient):
19.偏相关系数(partial correlation coefficient):
20.优势比:
1.应用相对数的注意事项
-不能以构成比代率
-计算相对数分母不宜太小
如果例数较少会使相对数波动较大。
-正确计算合计率
正确计算合计率.png
-注意资料的可比性
(1)观察对象是否同质,研究方法是否相同,观察时间是否相等,以及地区、周围环境、风俗习惯和经济条件是否一致或相近等。
(2)观察对象内部结构是否相同,若两组资料的年龄、性别等构成不同,可以分别进行同年龄别、同性别的小组率比较或对总率(合计率)进行标准化后再作比较。
-样本率(或构成比)同样存在抽样误差,故应进行样本率(或构成比)差别的假设检验。
2.率的标准化法
标准化法的意义和基本思想
标准化法
当两组资料内部构成不同,且各小组率亦明显不同时,不能直接比较两个合计率,而须采用统一的标准校正后方能比较,这种采用统一的内部构成,然后计算标准化率的方法,称为标准化法。
标准化法的基本思想
采用某影响因素的统一标准构成以消除构成不同对合计率的影响,使通过标准化后的标准化合计率具有可比性。
应用标准化时的注意事项
- 标准化法只适用于某因素两(或多)组内部构成不同,并有可能影响两组总率比较的情况。对于因其它条件不同而产生的不具可比性问题,标准化法不能解决。
- 由于选择的标准人口不同,算出的标准化率也不同。因此,当比较几个标准化率时,应采用同一标准人口。
- 标化后的标化率,已不再反映当时当地的实际水平,而是反映相互比较的资料间的相对水平。
- 两样本标准化率是样本值,存在抽样误差。比较两样本的标准化率,当样本含量较小时,还应作假设检验。
3.统计表的编制原则和结构
-编制原则
◆重点突出,简单明了
◆主谓分明,层次清楚
◆数据准确、可靠,文字和线条尽量从简
-结构
▲标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。
▲标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。
▲线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。
▲数字:用阿拉伯数字表示。 无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。
▲备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。
4.编制统计表的注意事项
1.统计表不一定是唯一的,同一份数据经过标目重排或分解组合,可以根据需要构造不同形式的统计表。
2.避免内容混杂,表达不清,结构混乱。若标目层次多于四个以上,统计表就会变得繁冗,尽量少用。
5.统计图的制作原则和结构
-统计图的制作原则
▲必须根据资料的性质、分析目的选用适当的统计图,由于统计图不能精确地显示数据大小,所以经常需要与统计表一起使用。
▲一个图一般只表达一个中心内容,表达一个主题,即一个统计指标。
▲绘制图形应注意准确、美观,图线粗细应用适当,定点准确,不同事物用不同线条(实线、虚线、点线)或颜色表示,给人以清晰的印象。
-统计图的结构
▲标题:其作用是简明扼要地说明资料的内容、时间和地点,一般位于图的下方中央位置并编号,便于说明。
▲图域:即制图空间,除圆图外,一般用直角坐标系第一象限的位置表示图域,或者用长方形的框架表示。
▲标目:分为纵标目和横标目,表示纵轴和横轴数字刻度的意义,一般有度量衡单位。
▲图例:对图中不同颜色或图案代表的指标注释。图例通常放在横标目与标题之间,如果图域部分有较大空间,也可以放在图域中。
▲刻度:即纵轴与横轴上的坐标。刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右。绘图时按照统计指标数值的大小,适当选择坐标原点和刻度的间隔。
6.简述置信区间与参考值范围的异同点。
image.png7.t 检验中的注意事项 。
- 假设检验结论正确的前提:作假设检验用的样本资料,必须能代表相应的总体,同时各对比组具有良好的组间均衡性,才能得出有意义的统计结论和有价值的专业结论。这要求有严密的实验设计和抽样设计,如样本是从同质总体中抽取的一个随机样本,试验单位在干预前随机分组,有足够的样本量等。
- 检验方法的选用及其适用条件,应根据分析目的、研究设计、资料类型、样本量大小等选用适当的检验方法。
t 检验是以正态分布为基础的,资料的正态性可用正态性检验方法检验予以判断。若资料为非正态分布,可采用数据变换的方法,尝试将资料变换成正态分布资料后进行分析。 - 双侧检验与单侧检验的选择 需根据研究目的和专业知识予以选择。单侧检验和双侧检验中的t值计算过程相同,只是t界值不同,对同一资料作单侧检验更容易获得显著的结果。单双侧检验的选择,应在统计分析工作开始之前就决定,若缺乏这方面的依据,一般应选用双侧检验。
- 假设检验的结论不能绝对化 假设检验统计结论的正确性是以概率作保证的,作统计结论时不能绝对化。在报告结论时,最好列出概率 P 的确切数值或给出P值的范围,如写成0.02<P<0.05,同时应注明采用的是单侧检验还是双侧检验,以便读者与同类研究进行比较。当 P 接近临界值时,下结论应慎重。
- 正确理解P值的统计意义 P 是指在无效假设 H0 的总体中进行随机抽样,所观察到的等于或大于现有统计量值的概率。其推断的基础是小概率事件的原理,即概率很小的事件在一次抽样研究中几乎是不可能发生的,如发生则拒绝H0。
- 假设检验和可信区间的关系 假设检验用以推断总体均数间是否相同,而可信区间则用于估计总体均数所在的范围,两者既有联系又有区别。
8.卡方检验注意事项
9. 简述相关与回归的异同点
区别:
1.意义:相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。
2.应用:研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。
3.研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。
相关系数r与回归系数b :r与b的绝对值反映的意义不同。r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。
联系:1. r与b值可相互换算;
- r与b正负号一致;
- r与b的假设检验等价;
-
回归可解释相关。相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。
10.研究设计的基本要素
(一)处理因素( treatment factor )
(二)受试对象( subject )
(三)实验效应( experimental effect )
11.实验设计的基本原则
(一)随机化原则(randomization)
(二)对照原则 (control)
(三)重复原则 (replication)
12.几种不同设计类型的随机化分组
(1)完全随机实验设计
将观察单位完全随机地分配到实验组与对照组或几个对比组中去。
(2)配对实验设计
1.同源配对:同一受试对象用两种不同的实验方法;受试对象自身实验前后的对比 。
2.非同源配对:将具有相同条件的实验对象配成对子。
(3)随机区组实验设计
1.将多方面条件相近的受试对象配成一组,称作一个区组(block)。
2.每个区组的受试对象个数 取决于 对比组组数。
3.每个区组的受试对象被随机地分配到各对比组中。
(4)交叉设计
每个受试者随机地在两个或多个不同试验阶段分别接受指定的处理(试验药或对照药)。
13.影响样本含量大小的因素
- 资料的性质:计量—少,计数—多
- 误差的大小:小—少,大—多
- 均衡性的好坏 :好—少,坏—多
- 实验效应的强弱:强—少,弱—多
- 干扰因素的多少:少—少,多—多
样本含量的估计时,以上很多因素无法定量,所以通常是由犯I类错误的概率α、 检验出实际差异的把握度1-β、个体值间的离散程度s、以及容许误差d来确定样本含量。
14.常用的抽样方法
- 单纯随机抽样
先将总体的全部观察对象编号,再利用抽签或随机数字表的方法随机抽取观察对象组成样本。最基本的抽样方法,其他抽样方法的基础。 - 系统抽样
按照一定的顺序,机械地每隔若干个单位抽取一个单位的方法。又称间隔抽样,机械抽样。 - 分层抽样
先按某种特征将总体分为若干组别、类型或区域等(统称为“层”),再用随机抽样的方法从每个子总体中抽取样本。要求“层内齐同,层间不同”。 - 整群抽样
按群体而不是按个体抽取观察单位的抽样方法。
各种抽样方法的抽样误差顺序:
分层≤系统≤单纯≤整群
15.系统误差控制定义、原因及方法
16.研究设计的基本类型:
实验设计,调查设计
17.研究设计的重要性
18.盲法
19.检验效能的影响因素
- 个体间标准差越小或样本含量越大,检验效能越大。
- 第一类错误的概率α越大,检验效能越大 。
-
客观差异δ越大,检验效能越大。
网友评论