美文网首页
大数据应用领域与关键技术

大数据应用领域与关键技术

作者: 老吴学技术 | 来源:发表于2020-12-01 17:38 被阅读0次

    最近开始介入数据资产建设工作。要成为数据领域的专家甚至高级专家,必须搞清楚大数据的应用方向,核心技术问题和解决方案。

    数据的应用方向都有哪些?

    • BI报表
    • 商业/投资/经济分析
    • 金融风控
    • 系统安全
    • 用户画像
    • 相关推荐
    • 其它机器学习任务上游

    主要用到的技术,解决的问题

    ETL:数据摸底、补全、清洗、归一化、标准化
    数仓建模:三层数仓、维度模型
    数据挖掘:等同、相似、相关、分类、聚类、预测、打标。以及其它通过数据验证假设的过程。
    机器学习:分类、预测、聚类、生成,NLP、CV、Speech
    用户画像:通过用户行为,计算用户标签。
    数据立方:将指标在各种维度组合下的值提前计算好,形成数据立方。供分析引擎使用。
    在线分析引擎
    可视化

    核心技术栈对照表:

    应用 ETL 数仓建模 数据挖掘 机器学习 用户画像 数据立方 在线分析引擎 可视化
    BI报表 V V V V V
    商业分析 V V V V V
    金融风控 V V V V V
    系统安全 V V V V V V
    用户画像 V V V
    相关推荐 V V V
    机器学习上游 V V V

    ETL核心技术

    通常ETL逻辑是数据挖掘的一部分。
    这一步的作用是完成数据预处理,定义数据规范,完成数据归一化、标准化。提升数据质量,发现并处理异常数据。

    数仓建模核心技术

    根据对领域业务的理解,使用维度表与事实表完成对领域的建模。搜索:数仓建模,维度模型

    数据挖掘核心技术

    • 等同:hash、skip_hash、归一化(依赖)、标准化(依赖)
    • 相似:simhash(文本)、phash(图片)、 欧氏距离、余弦距离
    • 相关:相关系数、欧氏距离、余弦距离
    • 关系推断:图计算

    如下部分依赖机器学习:

    • 聚类
    • 预测
    • 打标

    机器学习核心技术

    大数据领域常用机器学习问题:

    • 聚类
    • 回归
    • 分类

    大数据领域常用机器学习领域:

    • NLP:用于分析文本数据
    • CV:用于分析图片、视频

    用户画像核心技术

    • 参考google用户画像论文

    数据立方

    • 搜索数据立方的计算

    在线分析引擎与可视化

    • 搜索rolap, molap
    • 搜索可视化引擎

    相关文章

      网友评论

          本文标题:大数据应用领域与关键技术

          本文链接:https://www.haomeiwen.com/subject/hqpswktx.html