CDA题目

作者: 重生之魂 | 来源:发表于2017-11-25 16:29 被阅读0次

    大纲:

    应用情境例子:客户价值评估(线性回归)、贷款违约识别(逻辑回归)、不同班级的成绩差异(方差分析)、根据用户特征进行市场细分(聚类分析)

    统计模型可以解决:预测分类、相关分析、市场细分等问题。

    传统数据分析与数据挖掘模型对计量方式都有自身严格的要求。

    样本量越大,抽样误差越小。

    在其它条件不变的情况下,如果希望将误差降低50%,则需4倍的样本。

    置信区间的例子:100次独立抽样产生的区间估计,会有95次正确地包含着总体平均数。

    在其它条件不变的情况下,提高置信水平会使置信区间变大。

    没有理论、业务向导和假设条件的情况下,可以进行探索性数据分析,了解数据情况。

    遵循假设检验步骤是一种验证性数据分析的思路。

    t检验统计量的适用条件:小样本,并且方差未知

    t检验例子:化肥改良后的效果(配对样本t检验,两相关样本(改良前后的样本对应)是否来自相同均值的总体),商品质量是否达标(单样本t检验,单个变量的均值与指定的检验值之间是否存在显著性差异/样本均值与总体均值之间的差异),不同性别的成绩是否有差异(独立样本t检验,两独立样本是否来自相同均值的总体)

    方差分析同时检验两组或多组均值是否存在差异。

    正态分布是方差分析的前提。

    方差的基本原理是方差的可加性。

    方差不满足齐性检验的情况下,也有可能是满足正态分布的。

    方差不满足齐性检验的情况说明:不同组均值隐含的信息不同;数据分析结果无法推理到总体。

    回归分析之前,可以对数据做标准化处理、取对数处理

    线性回归的假设:线性(因变量与自变量呈线性关系)、正态性(残差服从正态分布)、独立同分布(残差间相互独立且遵循同一分布)、正交假定(误差项与自变量不相关)

    如果我们建立了y关于x的线性回归方程,在没有其它信息的情况下,我们只能说这两个变量存在线性关系。(不能当作因果关系)

    Z-score标准化消除了量纲的影响。

    识别异常值的方法:分位数判断、转化为Z-score判断、聚类

    主成分分析计算在选择相关系数计算法时,确定主成分个数的大致原则包括:特征根值大于1,累计特征根值加总占总特征根值的80%以上。

    主成分分析计算分为:根据相关系数和协方差矩阵两种方式。

    变量的量纲不同时,适用相关系数计算。

    主成分分析是把主成分表示成各个变量的线性组合。

    因子分析需要构造因子模型:用潜在的假想变量和随机影响变量的线性组合表示原始变量。

    主成分法是常用的因子载荷矩阵的估计方法。

    最大方差旋转是最常用的因子旋转方法,是一种正交旋转。

    在选择合适的因子数量时,可以适当放宽对于特征根大小的要求,大于0.7就可以。

    聚类模型需要事先采用因子分析对变量进行降维,分类模型需要事先对解释变量进行因子分析。

    将样本按相似性的大小分成多个类的过程称为聚类。

    层次聚类可以提供聚类树形图。

    当样本量超过50时,一般采用K均值聚类法,但是它对起始点位置敏感,也无法通过分析方法确定聚类个数,还容易受异常值的影响。

    取百分位秩和分箱处理都会影响原变量的分布,标准化、因子分析和变量聚类不会影响分布。

    对应分析是从主成分分析发展而来,用于两个或多个分类变量间各分类水平相关性的比较。

    多维尺度分析用于衡量样本间相异性(距离)或相似程度,也就是寻求原始距离的一个最佳近似,使得在低维中也能表示这些距离。

    Minkowski/欧式距离用于连续型数据,Jacard相似系数用于分类数据,余弦相似度反映了向量之间的余弦值。

    通过多维尺度分析将样本点在二维图中进行表示,通常是根据两个样本间的直线距离来判断相似度。很多时候因为不了解用户的主观判断标准,所以无法解读坐标含义。

    线性回归的5个假设:1.解释变量和被解释变量之间存在线性关系;2.解释变量和扰动项不能相关;3.解释变量之间不能强线性相关;4.扰动项独立同分布;5扰动项服从正态分布

    常用的分类变量预测模型是逻辑回归模型。

    p为发生概率,p/(p-1)为发生比Odds

    ROC曲线下面积值越接近1,表明模型预测能力越强。

    建立逻辑回归时,需要对连续变量进行分箱处理,以此捕获原始连续变量和被解释变量之间非线性关系、避免异常值的影响。

    一般在逻辑回归中只关注系数的正负,一般不看大小:解释变量X的系数为负,则X增大会导致Odds下降,即被解释变量Y=1的概率下降。

    数据库的ER图包含了表字段信息、 表与表之间关系的信息、 存储表的数据库信息

    在数据库中调整字段位置(MODIFY)时使用的关键词为 FIRST 和 AFTER 没有 BEFORE,在使用 ALTER TABLE…MODIFY…语句更改字段属性或位置时至少需要指定字段名+字段的数据类型

    网络例题:

    回归分析的第一步是 :确定解释和被解释变量

    哪个变量可以反映客户的忠诚度? :购买频次

    对客户的生命周期进行分类主要使用:聚类分析

    什么方法可以用于检验信用卡类型和支出是否有关系? :方差分析

    加权移动平均法遵循的一般原则是:近期数据权数大,远期数据权数小

    当所有观测值都落在回归直线上,则这两个变量之间的相关系数为 :+1或-1

    SPSS中,定义性别变量时,假设用数值1表示男,用数值2表示女,需要使用到的工具是 :变量名标签

    甲、乙两生产小组人均月工资分别为420元和537元,其方差均为80元,则两小组人均工资的代表性 :甲大于乙

    区间估计依据的原理是 :样本分布理论

    excel也可以建立三维图表

    抽取样本单位的方法:重复抽样、不重复抽样

    在全面调查和抽样调查中都存在的误差是:登记性误差、责任心误差、技术性误差,系统性误差不是

    总体线性关系的模型可以包含多个变量

    回归变差(或回归平方和)是指:被解释变量的回归值与平均值的离差平方和、被解释变量的总变差与剩余变差之差、解释变量变动所引起的被解释变量的变差

    在表格排序时,笔画和拼音可以作为排序的依据

    EXCEL中“清除”不能删掉单元格中某些类型的数据

    平均差的优点:平均差意义明确,计算容易;较好的代表了数据分布的离散程度;反应灵敏

    常见的差异量数有:平均差、方差、百分位数

    利用离均差求积差相关系数的方法有:减差法、加差法

    计算积差相关需满足:要求成对的数据、两列变量各自总体的分布都是正态、两相关变量都是连续变量、两变量之间的关系应是直线型的

    计算斯皮尔曼等级相关可用:等级差数法、等级序数法

    肯德尔 W 系数计算的是变量相关程度,没有负数

    质量相关包括:点二相关、二相关、多相关

    品质相关主要有:四分相关、φ相关、列联相关

    相关分析:分析对象是相关关系、分析方法主要是绘制相关图和计算相关系数、

    直线回归方程:建立前提条件是现象之间具有较密切的直线相关关系、关键在于确定方程中的参数a和b、表明两个相关变量间的数量变动关系、可用来根据自变量值推算因变量值,并可进行回归预测

    相关关系的特点是:现象之间确实存在数量上的依存关系,但是现象之间的数量依存关系值是不确定的

    现象间的相关关系按相关形式分为:直线相关、曲线相关

    配合一元线性回归方程须具备下列前提条件:现象间确实存在数量上的相互依存关系、现象间的关系是直线关系,这种直线关系可用散点图来表示、具备一组自变量与因变量的对应资料,且能明确哪个是自变量,哪个是因变量、两个变量之间不是对等关系

    由直线回归方程y=a+bx所推算出来的y值也是一个等差级数

    依分布函数的来源,可把概率分布划分为:经验分布、理论分布

    χ2分布的特点:取值均为正值、分布是正偏态分布

    使用正态分布表,可以进行的计算:Z 分数与概率、概率与概率密度、Z 值与概率密度

    检验次数分布是否正态的方法有:皮尔逊偏态量数法、累加次数曲线法、峰度偏度检验法、直方图法

    二项分布

    样本平均数的分布为正态分布的条件:总体方差已知

    F 分布特点:是一个正偏态分布、为正值、当组间自由度为1时, F检验与t检验的结果相同

    标准分数(z-score)的优点:可比性、可加性、明确性、稳定性

    单侧检验与双侧检验的区别包括:问题的提法不同、建立假设的形式不同、否定域不同

    关于SQL语句,联合查询使用的关键字是:UNION

    积差相关系数

    趋势方程

    时间每增加一个单位,Y平均减少1.2个单位

    相关文章

      网友评论

          本文标题:CDA题目

          本文链接:https://www.haomeiwen.com/subject/ykdcbxtx.html