最近开始介入数据资产建设工作。要成为数据领域的专家甚至高级专家,必须搞清楚大数据的应用方向,核心技术问题和解决方案。
数据的应用方向都有哪些?
- BI报表
- 商业/投资/经济分析
- 金融风控
- 系统安全
- 用户画像
- 相关推荐
- 其它机器学习任务上游
主要用到的技术,解决的问题
ETL:数据摸底、补全、清洗、归一化、标准化
数仓建模:三层数仓、维度模型
数据挖掘:等同、相似、相关、分类、聚类、预测、打标。以及其它通过数据验证假设的过程。
机器学习:分类、预测、聚类、生成,NLP、CV、Speech
用户画像:通过用户行为,计算用户标签。
数据立方:将指标在各种维度组合下的值提前计算好,形成数据立方。供分析引擎使用。
在线分析引擎
可视化
核心技术栈对照表:
应用 | ETL | 数仓建模 | 数据挖掘 | 机器学习 | 用户画像 | 数据立方 | 在线分析引擎 | 可视化 |
---|---|---|---|---|---|---|---|---|
BI报表 | V | V | V | V | V | |||
商业分析 | V | V | V | V | V | |||
金融风控 | V | V | V | V | V | |||
系统安全 | V | V | V | V | V | V | ||
用户画像 | V | V | V | |||||
相关推荐 | V | V | V | |||||
机器学习上游 | V | V | V |
ETL核心技术
通常ETL逻辑是数据挖掘的一部分。
这一步的作用是完成数据预处理,定义数据规范,完成数据归一化、标准化。提升数据质量,发现并处理异常数据。
数仓建模核心技术
根据对领域业务的理解,使用维度表与事实表完成对领域的建模。搜索:数仓建模,维度模型
数据挖掘核心技术
- 等同:hash、skip_hash、归一化(依赖)、标准化(依赖)
- 相似:simhash(文本)、phash(图片)、 欧氏距离、余弦距离
- 相关:相关系数、欧氏距离、余弦距离
- 关系推断:图计算
如下部分依赖机器学习:
- 聚类
- 预测
- 打标
机器学习核心技术
大数据领域常用机器学习问题:
- 聚类
- 回归
- 分类
大数据领域常用机器学习领域:
- NLP:用于分析文本数据
- CV:用于分析图片、视频
用户画像核心技术
- 参考google用户画像论文
数据立方
- 搜索数据立方的计算
在线分析引擎与可视化
- 搜索rolap, molap
- 搜索可视化引擎
网友评论