美文网首页
统计学基本概念

统计学基本概念

作者: 萍智医信 | 来源:发表于2021-12-18 14:30 被阅读0次

    1.变异(variation):是社会和生物医学中的普遍现象。
    2.总体(population):根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体。
    3.样本(sample):从总体中随机抽取的部分研究对象。
    4.随机抽样(random sampling):为了保证样本的可靠性和代表性,需要采用随机的方法抽取样本(在总体中每个个体具有相同的机会被抽到)。
    5.参数(parameter):总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。固定的常数。
    6.统计量(statistic):样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为 s。 参数附近波动的随机变量 。
    7.频率(frequency):样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f/n。
    8.概率(probability):随机事件发生的可能性大小,用大写的P 表示;取值[0,1]。
    9.小概率事件:P ≤ 0.05(5%)或P ≤ 0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。
    10.随机误差 (random error):随机误差受测量精确度限制,重复测量获得的实际测量值往往并不能稳定在同一值,而是无方向性地围绕某一个数值左右波动,这种误差称为随机误差 。
    11.系统误差 (systematic error):也叫偏倚(bias) , 是测量仪器或人为因素等导致的实际测量值与真实值之差。
    12.准确度(accuracy)或真实性(validity):观察值与真值的接近程度,受系统误差的影响(常用指标:如灵敏度、特异度)。
    13.可靠度(reliabiliy):也称精密度(precision)或重复性(repeatability) :重复观察时观察值与其均值的接近程度,受随机误差的影响(常用指标:一致百分率、Kappa值)。
    14.相关系数(correlation coefficient):又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。相关系数没有单位,其值为-1 r 1。r值为正表示正相关,r值为负表示负相关,r的绝对值等于1为完全相关,r=0为零相关。
    15.决定系数(coefficient of determination) :回归平方和与总平方和之比。取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。
    16.偏回归系数:


    17.剩余标准差( Root MSE ):反映了回归方程的精度,其值越小说明回归效果越好。
    18.复相关系数(multiple correlation coefficient):


    19.偏相关系数(partial correlation coefficient):


    20.优势比:

    1.应用相对数的注意事项

    -不能以构成比代率
    -计算相对数分母不宜太小
    如果例数较少会使相对数波动较大。
    -正确计算合计率


    正确计算合计率.png

    -注意资料的可比性
    (1)观察对象是否同质,研究方法是否相同,观察时间是否相等,以及地区、周围环境、风俗习惯和经济条件是否一致或相近等。
    (2)观察对象内部结构是否相同,若两组资料的年龄、性别等构成不同,可以分别进行同年龄别、同性别的小组率比较或对总率(合计率)进行标准化后再作比较。
    -样本率(或构成比)同样存在抽样误差,故应进行样本率(或构成比)差别的假设检验。

    2.率的标准化法

    标准化法的意义和基本思想

    标准化法
    当两组资料内部构成不同,且各小组率亦明显不同时,不能直接比较两个合计率,而须采用统一的标准校正后方能比较,这种采用统一的内部构成,然后计算标准化率的方法,称为标准化法。
    标准化法的基本思想
    采用某影响因素的统一标准构成以消除构成不同对合计率的影响,使通过标准化后的标准化合计率具有可比性。

    应用标准化时的注意事项

    1. 标准化法只适用于某因素两(或多)组内部构成不同,并有可能影响两组总率比较的情况。对于因其它条件不同而产生的不具可比性问题,标准化法不能解决。
    2. 由于选择的标准人口不同,算出的标准化率也不同。因此,当比较几个标准化率时,应采用同一标准人口。
    3. 标化后的标化率,已不再反映当时当地的实际水平,而是反映相互比较的资料间的相对水平。
    4. 两样本标准化率是样本值,存在抽样误差。比较两样本的标准化率,当样本含量较小时,还应作假设检验。

    3.统计表的编制原则和结构

    -编制原则
    ◆重点突出,简单明了
    ◆主谓分明,层次清楚
    ◆数据准确、可靠,文字和线条尽量从简

    -结构
    ▲标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。
    ▲标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。
    ▲线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。
    ▲数字:用阿拉伯数字表示。 无数字用“—”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。
    ▲备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。

    4.编制统计表的注意事项

    1.统计表不一定是唯一的,同一份数据经过标目重排或分解组合,可以根据需要构造不同形式的统计表。
    2.避免内容混杂,表达不清,结构混乱。若标目层次多于四个以上,统计表就会变得繁冗,尽量少用。

    5.统计图的制作原则和结构

    -统计图的制作原则
    ▲必须根据资料的性质、分析目的选用适当的统计图,由于统计图不能精确地显示数据大小,所以经常需要与统计表一起使用。
    ▲一个图一般只表达一个中心内容,表达一个主题,即一个统计指标。
    ▲绘制图形应注意准确、美观,图线粗细应用适当,定点准确,不同事物用不同线条(实线、虚线、点线)或颜色表示,给人以清晰的印象。
    -统计图的结构
    ▲标题:其作用是简明扼要地说明资料的内容、时间和地点,一般位于图的下方中央位置并编号,便于说明。
    ▲图域:即制图空间,除圆图外,一般用直角坐标系第一象限的位置表示图域,或者用长方形的框架表示。
    ▲标目:分为纵标目和横标目,表示纵轴和横轴数字刻度的意义,一般有度量衡单位。
    ▲图例:对图中不同颜色或图案代表的指标注释。图例通常放在横标目与标题之间,如果图域部分有较大空间,也可以放在图域中。
    ▲刻度:即纵轴与横轴上的坐标。刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右。绘图时按照统计指标数值的大小,适当选择坐标原点和刻度的间隔。

    6.简述置信区间与参考值范围的异同点。

    image.png

    7.t 检验中的注意事项 。

    1. 假设检验结论正确的前提:作假设检验用的样本资料,必须能代表相应的总体,同时各对比组具有良好的组间均衡性,才能得出有意义的统计结论和有价值的专业结论。这要求有严密的实验设计和抽样设计,如样本是从同质总体中抽取的一个随机样本,试验单位在干预前随机分组,有足够的样本量等。
    2. 检验方法的选用及其适用条件,应根据分析目的、研究设计、资料类型、样本量大小等选用适当的检验方法。
      t 检验是以正态分布为基础的,资料的正态性可用正态性检验方法检验予以判断。若资料为非正态分布,可采用数据变换的方法,尝试将资料变换成正态分布资料后进行分析。
    3. 双侧检验与单侧检验的选择 需根据研究目的和专业知识予以选择。单侧检验和双侧检验中的t值计算过程相同,只是t界值不同,对同一资料作单侧检验更容易获得显著的结果。单双侧检验的选择,应在统计分析工作开始之前就决定,若缺乏这方面的依据,一般应选用双侧检验。
    4. 假设检验的结论不能绝对化 假设检验统计结论的正确性是以概率作保证的,作统计结论时不能绝对化。在报告结论时,最好列出概率 P 的确切数值或给出P值的范围,如写成0.02<P<0.05,同时应注明采用的是单侧检验还是双侧检验,以便读者与同类研究进行比较。当 P 接近临界值时,下结论应慎重。
    5. 正确理解P值的统计意义 P 是指在无效假设 H0 的总体中进行随机抽样,所观察到的等于或大于现有统计量值的概率。其推断的基础是小概率事件的原理,即概率很小的事件在一次抽样研究中几乎是不可能发生的,如发生则拒绝H0。
    6. 假设检验和可信区间的关系 假设检验用以推断总体均数间是否相同,而可信区间则用于估计总体均数所在的范围,两者既有联系又有区别。

    8.卡方检验注意事项

    9. 简述相关与回归的异同点

    区别:
    1.意义:相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。
    2.应用:研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。
    3.研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。
    相关系数r与回归系数b :r与b的绝对值反映的意义不同。r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。
    联系:1. r与b值可相互换算;

    1. r与b正负号一致;
    2. r与b的假设检验等价;
    3. 回归可解释相关。相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。


    10.研究设计的基本要素

    (一)处理因素( treatment factor )
    (二)受试对象( subject )
    (三)实验效应( experimental effect )

    11.实验设计的基本原则

    (一)随机化原则(randomization)
    (二)对照原则 (control)
    (三)重复原则 (replication)


    12.几种不同设计类型的随机化分组

    (1)完全随机实验设计
    将观察单位完全随机地分配到实验组与对照组或几个对比组中去。
    (2)配对实验设计
    1.同源配对:同一受试对象用两种不同的实验方法;受试对象自身实验前后的对比 。
    2.非同源配对:将具有相同条件的实验对象配成对子。
    (3)随机区组实验设计
    1.将多方面条件相近的受试对象配成一组,称作一个区组(block)。
    2.每个区组的受试对象个数 取决于 对比组组数。
    3.每个区组的受试对象被随机地分配到各对比组中。
    (4)交叉设计
    每个受试者随机地在两个或多个不同试验阶段分别接受指定的处理(试验药或对照药)。

    13.影响样本含量大小的因素

    1. 资料的性质:计量—少,计数—多
    2. 误差的大小:小—少,大—多
    3. 均衡性的好坏 :好—少,坏—多
    4. 实验效应的强弱:强—少,弱—多
    5. 干扰因素的多少:少—少,多—多
      样本含量的估计时,以上很多因素无法定量,所以通常是由犯I类错误的概率α、 检验出实际差异的把握度1-β、个体值间的离散程度s、以及容许误差d来确定样本含量。

    14.常用的抽样方法

    1. 单纯随机抽样
      先将总体的全部观察对象编号,再利用抽签或随机数字表的方法随机抽取观察对象组成样本。最基本的抽样方法,其他抽样方法的基础。
    2. 系统抽样
      按照一定的顺序,机械地每隔若干个单位抽取一个单位的方法。又称间隔抽样,机械抽样。
    3. 分层抽样
      先按某种特征将总体分为若干组别、类型或区域等(统称为“层”),再用随机抽样的方法从每个子总体中抽取样本。要求“层内齐同,层间不同”。
    4. 整群抽样
      按群体而不是按个体抽取观察单位的抽样方法。

    各种抽样方法的抽样误差顺序:
    分层≤系统≤单纯≤整群

    15.系统误差控制定义、原因及方法


    16.研究设计的基本类型:

    实验设计,调查设计

    17.研究设计的重要性

    18.盲法


    19.检验效能的影响因素

    1. 个体间标准差越小或样本含量越大,检验效能越大。
    2. 第一类错误的概率α越大,检验效能越大 。
    3. 客观差异δ越大,检验效能越大。


    20.临床试验类型

    21.临床试验避免偏倚的技巧

    22.ITT原则

    23.灵敏度与特异度的优缺点

    相关文章

      网友评论

          本文标题:统计学基本概念

          本文链接:https://www.haomeiwen.com/subject/eskaxrtx.html