美文网首页
九、数据仓库与数据挖掘

九、数据仓库与数据挖掘

作者: 筱__ | 来源:发表于2019-08-27 10:54 被阅读0次

1. 元数据是关于数据的数据,或者叫做描述数据的数据,它描述了数据的结构、内容、链和索引等项的内容

2. 数据仓库四个特点:

    1、主题性:从实际需求出发,具有较高的抽象性,数据可用性比OLTP较为宽松。

    2、集成性:需要将数据抽取、转换、清理、装载。

    3、稳定性:是面向决策支持应用主题的,数据进入数据仓库后不允许修改。

    4、动态性:数据需要定期更新。

数据仓库的特性包括面向主题性、集成性、不可更新性和时间特性。

其中,不可更新:并不意味着不再向数据仓库追加新的数据,只是一般不对数据仓库内的原始数据进行修改,数据的载入和更新通常是以批量方式进行操作。

时间特性:是指随着时间的推移,部分数据不再需要,将会被删除,但不是像操作型数据库那样直接删除。

3. 在机器学习概念中,有监督学习、无监督学习和强化学习三大类典型方法。下列学习任务属于无监督学习的是_

A. 将未知类别的一组数据,采用聚类方法,分成不同的组

B. 根据样本数据,采用分类算法,训练分类器

C. 根据样本数据,进行回归分析

D. 机器人在动态环境中,自主学习掌握行走方法

聚类方法包括统计方法、 机器学习方法、神经网络方法和面向数据库的方法等。

在机器学习中,聚类称作无监督(或无教师)归纳。与分类相比,分类的例子或数据对象均有类别标记,而聚类的例子则没有标记,需要由聚类算法来自动确定。聚类的核心就是将一个数据集中的数据进行分组,使得每一 组内的数据尽可能的相似而不同组间的数据尽可能不同。故答案为A。

4. 分类算法服务于数据挖掘或机器学习中分类任务,下列算法中不属于分类算法的是____。

A.  BP神经网络算法

B.  K-means算法

C. 诀策树算法

D. SVm算法

分类器的构造方法有统计方法、机器学习方法、神经网络方法等。

统计方法包括贝叶斯法和非参数法;

机器学习方法包括决策树法和规则归纳法;

神经网络方法主要是BP算法。

K-means属于聚类算法。故答案为B。

5.关于数据仓库、数据挖掘、诀策支持系统和机器学习的相关概念或说法,下列说法一般情况下错误的是_

A. 数据挖掘一般是指数据分析师根据个人经验针对细节数据进行分析总结,挖掘出有用的知识的过程

B. 数据仓库是服务于决策支持的数据集合

C. 诀策支持系统是指辅助需要决策的人或系统进行决策的系统

D. 机器学习是指机器采用一些方法或模型从数据中习得知识的过程

数据挖掘可以简单地理解为从大量数据中提取或挖掘知识,是数据库知识发现的一个步骤。故答案为A。

6.设某大型电子商务平台有如下数据表:

表1 (商铺ID, 顾客ID,商品ID,商品名称,数量,价格,金额,销售日期,销售时间)

表2 (商铺ID, 商品ID,商品名称,日销售量,销售总金额,销售日期)

表3 (商铺ID,商品类别,日销售量,销售总金额,销售日期)

表4 (商铺ID, 商品类别,周销售量,销售总金额,周ID)

则各表数据的粒度级从低到高排列,正确的是_

A. 表4,表3,表2,表1

B. 表2,表4,表3,表1

C. 表1,表3,表4,表2 

D. 表1,表2,表3,表4

      粒度高的数据是由粒度低的数据综合而成的。

      表4中的周销售量由表3中的日销售量综合而成,表3中的商品类别由表2中的商品名称综合而成,表2中的销售总金额由表1中的数量和价格等综合而成,故答案为D。

7.在数据仓库设计中, 数据的粒度级设计是一个重要的问题。 在粒度级设计中,设有下列考虑因素 :

I.用户查询所涉及数据的最低细节程度

II.高粒度数据所需的存储空间

III.用户查询的平均性能需求

IV.系统的可用存储空间V.低粒度级数据的规模

VI.用户查询所涉及的数据的最高粒度级

      在以上因素中,属于次要或不需要考虑的因素是_

A. 仅II和VI

B. 仅IV和V

C. 仅I和VI

D. 仅I和III

      粒度越大,综合程度越高:粒度越小,综合程度越低。

      粒度影响数据仓库的数据量以及系统能回答的查询的类型。粒度越小,细节程度越高,能回答的查询就越多。但是,因为需要存储低粒度级的细节数据,数据量就比较大,空间代价也大。故答案为A。

8.ETL工具是指从OLTP系统或其他数据环境中抽取数据的工具。在实践中,人们采用EIL工具从OLTP系统抽取出数据再进行分析利用,而不是在0LTP系统中直接进行数据分析利用的最主要,原因是

A. 解决企业中的数据孤岛问题

B. 解决企业中的数据共享问题

C. 解决分析型应用程序与0LTP应用程序之间的性能冲突问题

D. 解决蜘蛛网式的企业信息系统架构带来的各种问题

数据集成是将源自不同数据源的数据经过抽取、转换、清理、装载等操作载入数据仓库的过程,是实施数据仓库的重要步骤。

由于对大量的原始数据要加以提炼,要减轻分析工作给处理业务数据的服务器带来的压力,要规范各源数据,以及要处理那些难以直接使用的数据,数据集成在数据仓库设计中是必不可少的一环,ETL是实现数据集成的主要技术。

故答案为C。

相关文章

网友评论

      本文标题:九、数据仓库与数据挖掘

      本文链接:https://www.haomeiwen.com/subject/vxisectx.html