美文网首页
数据类型练习题

数据类型练习题

作者: 从此不迷茫 | 来源:发表于2020-02-15 21:17 被阅读0次

    1.两个字段所列数据信息近似成比例,则很难产生有用的预测信息。

    2.将下列属性分类成二元的、离散的或连续的,并将它们分类成定性的(标称的或序数的)或定量的(区间的或比率的)。某些情况下可能有多种解释,因此如果你认为存在二义性,简略给出你的理由。

    例子:年龄。回答:离散的、定量的、比率的。

    a.用AM和PM表示的时间。

    二元的、定性的、序数的

    b.根据曝光度表测出的亮度。

    连续的,定量的,比率的

    c.根据人判断测出的亮度。

    离散的,定性的,序数的

    d.按度测出的0和360之间的角度。

    连续的,定量的,比率的

    e.奥运会上授予的铜牌,银牌,金牌。

    离散的,定性的,序数的

    f.海拔高度。

    连续的,定量的,区间的/比率的(根据海平面是否被视为原点)

    g.医院病人的数量。

    离散的,定量的,比率的

    h.书的ISBN号(查找网上的格式)。

    离散的,定性的,标称的(虽然ISBN确实含有顺序信息)

    i.用如下值表示的透光能力:不透明,半透明,透明。

    离散的,定性的,序数的

    j.军衔。

    离散的,定性的,序数的

    k.到校园中心的距离。

    连续的,定量的,区间的/比率的(视情况)

    l.用每立方厘米克表示的物质密度。

    离散的,定量的,比率的

    m.外套寄存号码。

    离散的,定性的,标称的

    3.某个地方公司的销售主管与你联系,他相信他已经设计出了一种评估顾客满意度的完美方法。他这样解释他的方案:“这太简单了,我简直不敢相信,以前竟然没有人想到,我只是记录顾客对每种产品的抱怨次数,我在数据挖据书中读到计数具有比率属性,因此,我的产品满意度度量必定具有比率属性。但是,当我根据顾客满意度度量评估产品并拿给老板看时,他说我忽略了显而易见的东西,说我的度量毫无价值。我想,他简直是疯了,没发现我们的畅销产品满意度最差,因为对它的抱怨最多。你能帮助我摆平他吗?”

    a.谁是对的?如果是老板,你需要做什么来修正满意度度量?

    老板是对的。

    更好的度量是:满意度(产品)=产品抱怨的数量/产品销售量

    b.对于原产品满意度度量的属性类型,你的想法是?

    原始测量的属性类型无可奉告。例如,两个顾客满意度相同的产品可能有不同数量的投诉,反之亦然。

    4.

    a.是的,他确实遇到困难。顾客可能给出不一致评定,比如某顾客可能相对1更喜欢2,相对2更喜欢3,但是相对3更喜欢1.

    b.答案一:针对三种产品,只比较前两对。更一般的解答:把选择交给客户作为订购产品的一种,但仍然只允许两两比较。一般而言, 建立一个基于两两比较的序数测量尺度会比较困难,因为可能出现不一致。

    c.首先,有一个问题,即比等级很可能不是区间或比率。尽管如此,实际上,平均值可能足够。一个更重要的担忧是一些极端的评级可能误导整体评级。因此,中位数或 修剪平均(见第3章)可能是一个更好的选择。

    5.学生身份标识号对毕业日期是一个很好的预测因子。

    6.a.Association rule analysis works with binary attributes, so you have to convert original data into binary form as follows:

    b.400个不对称二元属性。

    对称的二元变量和不对称的二元变量之间的区别是什么?只有非零值才重要的二元属性是非对称的二元属性。
          如果它的两个状态有相同的权重, 那么该二元变量是对称的,也就是两个取值 0或 1 没有优先权。例如,属性“性别”就是这样的一个例子,它有两个值:“女性”和“男性”。基于对称二元变量的相似度称为恒定的相似度,即当一些或者全部二元变量编码改变时,计算结果不会发生变化。对恒定的相似度来说,评价两个对象 i和 j 之间相异度的最著名的系数是简单匹配系数,其定义如下:
    d(I,j) = (r+s) / (q+r+s+t)                  (8.9  p342 ?)
          如果两个状态的输出不是同样重要,那么该二元变量是不对称的。例如一个疾病检查的肯定和否定的结果。根据惯例,我们将比较重要的输出结果,通常也是出现几率较小的结果编码为 1(例如,HIV阳性),而将另一种结果编码为 0(例如 HIV阴性)。给定两个不对称的二元变量,两个都取值 1 的情况(正匹配)被认为比两个都取值 0 的情况(负匹配)更有意义。因此,这样的二元变量经常被认为好像只有一个状态。基于这样变量的相似度被称为非恒定的相似度。对非恒定的相似度,最著名的评价系数是 Jaccard 系数,在它的计算中,负匹配的数目被认为是不重要的,因此被忽略。
    D(I,j) = (r+s) / (q+r+s)        (8.10)
    当对称的和非对称的二元变量出现在同一个数据集中,在 8.2.4 节中描述的混合变量方法可以被应用。

    7.哪一个更具有时间自相关性的:日气温变化还是日降雨变化?为什么?

    如果距离较近的位置相对于该特征的值比距离较远的位置更相似,则特征显示空间自相关。由于降雨可能非常局部化,因此物理上接近的地点的温度比降雨量接近的地点温度更可能接近;因为降雨量可能从一个地点突然变化到另一个地点。因此,日气温比日降雨量表现出更多的空间自相关。

    8.讨论为什么文档项矩阵是具有非对称离散或非对称连续特征的数据集的示例?

    Most documents contain only a small fraction of all the possible terms, and thus, zero entries are not very meaningful, either in describing or comparing documents. Thus, a document-term matrix has asymmetric discrete features.

    TF-IDF(term frequency inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。

    If we apply a TFIDF normalization to terms and normalize the documents to have an L2 norm of 1, then this creates a term -document matrix with continuous features. 但是,这些特性仍然是非对称的,因为这些转换不会为以前为0的任何条目创建非零条目,因此,零条目仍然不是很有意义。

    9.Many sciences rely on observation instead of (or in addition to) designed experiments. Compare the data quality issues involved in observational science with those of experimental science and data mining.许多科学依靠观察而不是(或除了)设计的实验。比较观测科学与实验科学、数据挖掘中的数据质量问题

    观测科学的问题在于不能完全保证获得数据的质量。比如,在人造卫星使用之前,地表温度一直来自于海面轮船的测量。同样,气象测量通常是从位于城镇的气象站获取的。因此,有必要使用可用的数据,而不是精心设计的实验数据。从这个意义上说,观测科学的数据分析类似于数据挖掘。

    10.Discuss the difference between the precision of a measurement and the terms single and double precision, as they are used in computer science, typically to represent floating-point numbers that require 32 and 64 bits, respectively.讨论测量精度与计算机科学中使用的术语单精度和双精度之间的区别,它们通常表示分别需要32位和64位的浮点数

    The precision of floating point numbers is a maximum precision.更明确地说,精度通常用表示值的有效位数来表示。因此,单个精度数字只能表示高达32位的值,≈9位精度小数。然而,通常使用32位(64位)表示的值的 精度远远小于32位(64位)。

    相关文章

      网友评论

          本文标题:数据类型练习题

          本文链接:https://www.haomeiwen.com/subject/coxufhtx.html