美文网首页
#数据QA分享# 数据项目特点

#数据QA分享# 数据项目特点

作者: 李春辉 | 来源:发表于2021-06-23 23:56 被阅读0次

    数据项目通常是收集大量的数据,结合各种技术手段对数据进行分析、挖掘,帮助提升企业在商业模式、产品或服务上的创新力、提升商业决策水平、提高效益。数据项目的特点除了大家熟悉的数据本身的特点以外,本节又总结了其它几点:业务、技术、交付件。

    业务方面

    数据项目业务特点是通过数据实现为企业创造价值,即通过对大量的数据分析、挖掘,帮助企业增加市场份额、提升利润、降低经营风险、发现新的商业模式。
    在【数据 + 技术 => 业务价值】的过程中,通常有这么两种思络:数据驱动和业务驱动。

    数据驱动<=>业务驱动

    (1)数据驱动
    其核心是以数据为基础,通过分析企业已有数据源或相关同行业数据源,通过对数据分析或挖掘,从而发现问题、定位问题、由以往的经验判断转换为由数据驱动数据判断。

    • 收集已有数据或行业数据
    • 数据加工处理
    • 数据分析挖掘
    • 找规律、发现问题

    (2)业务驱动
    其关键是在懂自身行业和业务的前提,通过业务找数据、通过问题找数据,再从找到的数据中发现问题、解决问题,从而丰富和创造业务。

    • 深挖业务场景
    • 通过业务找缺失数据
    • 通过找到的数据发现问题、解决问题
    • 丰富和创造业务价值
    数据驱动 + 业务驱动

    数据方面

    数据项目最大的特点就是项目数据的特点,4个V,如下图:


    大数据4个V
    • 数据体量大
      包括采集、存储和计算的数据量都非常大,从TB到PB、甚至EB的规模。
    • 数据多样性
      数据种类和来源多样化。包括结构化、半结构化和[非结构化数据,音频、视频、图片等等,多类型的数据对数据的处理能力提出了更高的要求。
    • 数据实时性
      数据增长速度快,处理速度也快,时效性要求高。
    • 价值密度低
      全世界所产生的数据当中,有价值的数据所占比例很小。大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,发现新规律和新知识。
      比如:你有全国所有20-30岁年轻人的上网数据,那么通过分析这些数据,就知道他们的爱好,进而指导产品的发展方向。
      比如:你有全国几百万病人的数据,根据数据进行分析预测疾病的发生,这些都是大数据的价值。

    交付件

    在数据项目的交付件中,数据、软件程序、AI模型这三部分都有可能是最后的交付物。有的项目可能三者同时都有。

    • 数据为交付物
      企业推进数智化,专家已深挖大数据业务场景,但由于数据缺失被阻,邀请团队负责交付所需大数据。此时的交付物为数据,当然也有可能是数据+软件系统。再比如,现在很多第三方公司负责出售各类行业大数据集,这里的交付物就是数据。
    • 软件系统为交付物
      各类监测系统、大数据平台、BI报表系统等等,其共同点都是收集企业数据、经过数据分析、数据处理、挖掘,最后呈现结果,体现商业价值。
    • AI模型为交付物
      有的项目只需提供AI模型或优化模型的服务。当然更为普通的是在软件系统中、嵌入AI模型来做预测或推荐,这时最终的交付物便是软件+模型。

    为何要从交付件这一方面来谈数据项目的特点,看上去有些牵强。这里两个目的:

    • 为了提醒在数据项目中,团队不要忽视了数据和模型这两类交付件。这在传统项目上通常没有的,不需要考虑。
    • 之前谈数据项目质量时,会从不同的交付物视角来谈质量。

    技术侧

    数据项目使用的技术框架通常都是大数据技术,专门处理大规模数据的存储与计算等问题。大数据核心技术又是围绕大数据生命周期:采集、存储和分析、共享、应用这四个方面分类,常见的大数据技术就有:
    文件存储:Hadoop HDFS、Tachyon、KFS
    离线计算:Hadoop MapReduce、Spark
    流式、实时计算:Storm、Spark Streaming、S4
    K-V、NOSQL数据库:HBase、Redis、MongoDB
    资源管理:YARN、Mesos
    日志收集:Flume、Scribe、Logstash
    消息系统:Kafka、StormMQ
    查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Flink、Druid
    分布式协调服务:Zookeeper
    集群管理与监控:Ambari、Ganglia、Nagios
    数据挖掘、机器学习:Mahout、Spark MLLib
    数据同步:Sqoop
    任务调度:Oozie

    以上从业务、数据、技术、交付件这四个方面,介绍了数据项目通常有哪些不一样,希望对大家了解数据项目有一些帮忙。

    相关文章

      网友评论

          本文标题:#数据QA分享# 数据项目特点

          本文链接:https://www.haomeiwen.com/subject/onqbyltx.html