美文网首页
《海量数据分析前沿》——阅读笔记

《海量数据分析前沿》——阅读笔记

作者: Jaling | 来源:发表于2020-12-21 20:58 被阅读0次

    0 绪论

    该书由美国国家学书院国家研究委员会组编(2013年底),由华东师范大学数据科学与工程研究院译著(2015年5月),由周傲英教授作序,由清华大学出版社出版。在译者序中,周老师浅谈了他对大数据类型、大数据研究和海量数据分析的认识,总结如下。大数据大致可以分为Web数据、决策数据、科学数据三大类。Web数据主要为用户应用端产生的以Web形式呈现或以Web为载体的数据,决策数据是指由数据库和数据仓库管理的在生产过程中产生的数据,用于决策,科学数据与科学领域相关,包括实验、观测、文献、设计等的数据。大数据的研究是一个倒三角结构,上面最宽的一层是应用,也是数据的来源与应用场所,下面最窄的一层是IT计算系统或平台,中间的是模型和算法,是对应用进行理解、抽象与建模,并在底层的计算平台实现。大数据的本质是海量数据分析。本书从计算和推理的角度分析了与海量数据分析相关的前沿问题,重点介绍海量数据挖掘分析以及流数据挖掘的进展,讨论并行和分布式系统架构的最新发展。具体内容包括数据建模、任务建模、计算复杂性问题分析、数据采样以及人工参与的数据分析方法等。

    (1)研究动机:1)(应用层面的意义)海量数据的挖掘改变人们对危机公关、市场营销、娱乐、安全等应用场景的处理方式,改变了对信息存储和检索的认知,多媒体数据的大量需要更复杂的分析技术来对数据中的现象进行关联和语义上的解释。2)(技术层面的意义)利用海量数据的科学研究可以使得技术更具适应性、个性化和健壮性,例如医学上的个性化诊断和商业上的个性化推荐。3)(现有技术的支撑)现阶段的技术可以支撑海量数据的分析研究,数据库和搜索引擎对设计可扩展的、以数据为中心的技术支撑,云计算及其他并行和分布式平台技术的适用,适用于更大规模数据集合的数据分析方法的出现。

    (2)研究挑战:  (传统挑战)各种现有的技术,即数据的存储索引和查询等,需在史无前例的量级下实现,面临着如何将系统和算法扩展到更大的数据集上的挑战。(基础理论)统计学的基础理论用于验证由数据到知识的推理过程的正确性,但是直接在海量数据场景下使用现有的基础理论会产生诸多困难,即得到无用的分析结果甚至错误有害的分析结果。(抽样偏差,“数据世系”问题,误差率控制问题,特征组合可预测性低,统计波动产生的风险增加)(基础工具)在海量数据场景下,统计学的基础理论工具无法使用,因为海量数据的收集过程可能违反统计工具对数据特征和抽样方法的假设,评估程序错误和诊断工具本身也可能无法运行。(跨学科)计算机科学,统计学,数学,信号处理与信息理论,领域专家和技术用户,法律学者,经济学家等。(各类数据源特有的挑战)自言语言和音频--语义提取,情感分析,文档主题,相依模型,问答系统等;视频和图片--压缩,图像处理,计算视觉和语义分析;时空数据--时空一致性;网络和图数据--“中心化”和“影响力”等。(“中间件”开发需求)海量数据分析对“中间件”开发的需求很大,所谓“中间件”是链接顶层数据分析规范与底层分布式系统架构的组件。(其他)公共政策、法律和道德,隐私保护和数据所有权问题。

    (3)研究任务:(研究进展评估)评估当前海量数据和流数据挖掘的数据分析进展;(确定差距)确定当前实践与理论的差距;(制定研究计划)填补差距。

    (4)研究领域:数据表示(数据的特征化,数据转换方法),计算复杂性问题(计算资源间的平衡),统计模型构建(数据清洗与数据验证),采样(数据收集和数据规约),人工干预数据分析方法(众包技术和可视化)。 

    (5)主要算法:基本统计,广义的多体问题,图论计算,线性代数计算,优化,集成,匹配问题。

    (6)研究场景:1)数据流:数据快速、连续到达,只有一部分可以被存储;2)磁盘:数据太大,不能存储在RAM中,但可以存储在单机的磁盘上;3)分布式:数据分布在多台机器的RAM或磁盘中;4)多线程:数据存储在一台机器上,且该机器包含多个处理器,这些处理器共享内存。

    (7)研究思路:定义子问题融合多个数据源。数据往往是异构的,解决问题的最好方法可能是定义子问题,并结合计算、推理和可解释性等因素来选择最佳方案。另一方面,数据往往只从某些角度来审视问题,合理的解决方案需要融合多个数据源,利用领域知识来合理整合碎片化的数据。

    1 引言

    1995年,美国国家研究委员会的应用与理论统计学委员会举办了一个研讨会,旨在分析海量数据处理的挑战和研究进展,发布了《海量数据:研讨会论文集(NRC,1996)》。当前三个方面的研究值得特别注意。

    第一,有关人的兴趣和活动方面的数据存量有了飞速的增长,而大部分数据都是人们在使用社交媒体由用户自己生成的。众包技术,以人类活动为中心的数据源的出现,这些数据具有多样化、碎片化、真实性等问题,为人类行为的潜在原因和意图分析带来挑战。

    第二,为了收集和处理海量数据,分布式计算系统已经成为现实。由于计算资源和数据的分布式,存在存储、网络传输和处理速度三者之间的权衡问题。数据分析通常需要基于多个独立收集的数据源进行,例如只有将社交媒体提供的碎片化的用户画像组合起来才能回答与用户兴趣有关的问题,因此如何构建跨空间、跨表达和跨管理域的分布式计算框架成为挑战。

    第三,时空数据的研究是学术前沿。连续时间段上产生的数据是海量的,可以迅速占据存储和计算资源。通常的做法是开发在线的、避免数据存储的流处理算法,需要发现和扼要记录(存储)在时间上延伸的行为模式,需要实时或近实时的处理方法,需要在精度和及时性两方面做出权衡。特别地,对空间坐标进行索引的数据集,新算法需要在精度及时性空间粒度上做出权衡。

    2 科学、技术、商业、国防、电信及其他领域的海量数据

    待更。

    3 数据管理基础设施的规模扩大

    待更。

    4 时态数据和实时算法

    待更。

    5 大规模数据表示

    待更。

    6 资源、权衡与局限性

    待更。

    7 由海量数据建立模型

    待更。

    8 采样与海量数据

    待更。

    9 人类与数据的交互

    待更。

    10 海量数据分析的七个计算“巨人”

    待更。

    11 结论

    待更。

    相关文章

      网友评论

          本文标题:《海量数据分析前沿》——阅读笔记

          本文链接:https://www.haomeiwen.com/subject/hucgzhtx.html