-写给报考中级经济师的小伙伴们
2022年10月25日 周二 深圳 晴1113/1000
【主题】经济学常识
【字数】1349
(接昨天)
第23章“统计与统计数据”的第十个考点,也是这一章最后的1个考点。部分内容是2022年教材新增内容。
第十个考点:数据科学与大数据
1、数据科学的含义
数据科学是一门通过系统性研究获取与数据相关的知识体系的学科。
2、研究的对象
数据科学研究的是从“数据”集合成“信息”进而组织成“知识”的整个过程。包含对数据进行采集、存储、处理、分析、表现等一系列活动。数据科学研究对象是数据,研究目标是获得洞察力和理解力,通过对数据的分析来解释、预测、洞见和决策,为现实世界服务。
3、大数据具有“4V”特性
A、数据量大(Volume)
B、数据多样性(Variety)
结构化数据,可以用二维表结构实现表达的数据。如,ERP系统,教育一卡通。
非结构化数据,数据结构不规则或不完善,没有预定义的数据。如,文档、图表、报表、音频信息、地理位置等
半结构化数据,介于完全结构化数据和完全非结构化数据之间的数据。如,邮件,员工建立。
(注意:2022版教材没有出现结构、半结构和非结构的概念,之所以仍然分享在此,是估计题库内有该类题目)
C、价值密度低(Value),价值密度的高低与数据总量的大小成反比。在连续不间断的监控中,有用数据可能仅有1、2秒。
D、数据产生和处理速度快(Velocity),符合“1秒定律”。
以上4V是根据英文单词的首字母来定的。
4、数据挖掘
含义:是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐藏在其中但又有潜在价值信息和知识的过程。核心任务是对数据关系和特性进行探索。
含义包含4层:
A、数据源必须是真实的、大量的、有噪声的。
B、发现的是用户感兴趣的知识。
C、发现的知识是可接受、可理解、可运用的。
D、并不要求发现放之四海而皆准的知识,仅支持特定的发现问题。
5、数据挖掘以解决时间问题为出发点。
融合了很多学科领域的知识,核心任务是对数据关系和特征进行探索。常见的数据挖掘方法可分为:监督学习、无监督学习、半监督学习。
A、监督学习
根据已有的数据集,训练出模型可以根据自变量数据得到因变量预测结果的过程。监督学习中有2大类典型任务。
1是分类。通过特征变量确定观察单位所属类别,因变量是分类变量。如,根据用户满意度、财务信息判断用户合约到期后是否会续约。
2是回归。通过特征变量确定观察单位因变量的取值,因变量是定量变量。如,根据钻石的克拉数、颜色、切割工艺等信息预测钻石的价格。
B、无监督学习
主要任务是探索数据之间的内在联系和结构。无监督学习中有2大类典型任务。
1是聚类。就是把一组数据按照相似性和差异性分为几个类别,使得同类型数据相似性尽可能大,不同类数据相似性尽可能小,跨类的数据关联性尽可能低。常用于客户细分、文本归类、结构分组、行为跟踪等。如,通过聚类分析将网购客户划分为互不相交的客户群,以便为不同的客户群推荐不同的目标商品。
2是降维。也称为特征提取,指在不损失过多的信息的前提下将N个相关的特征降为k个不相关的特征(k<N)使其具有更好的解释性。如,根据客户的能力、品格、担保、资本、环境等特征评价客户的信用等级。
C、半监督学习
监督学习与无监督学习相结合的一种学习方法。
至此,经济基础23章的全部考点分享完成。明天继续分享24章。
网友评论