数据分析的专业人员懂得大数据的整体框架,能够做数据工程方面的工作。这个就是full stack data scientist
image.png数据工程师与数据科学家
数据工程时做的是大量的数据存储管理相关的工作。
数据分析师/ 数据科学家 :在大范围的数据源进行的一些数据的分析。
数据工程师
image.png- 做数据库
- SQL database
- NoSql database
- Data modeling(将公司的一些商业过程,商业要求映射成为数据库的数据)
- Extract,Transform and load (ETL)将数据源能够放到数据仓库里面
- Hadoop - based data storage and managements
- Spark system(大数据的平台)
- Cloud system (云计算,没有资源建立自己的数据中心,就是用云数据中心)
- Data mining 有些是又一个数据工程的team来完成所有数据工程的东西,又一个data science 的team 来完成所有数据分析方面的东西。有很多公司是按照产品线来,我有一个产品,这个产品配有数据工程时解决数据数据工程的问题,数据科学家处理数据分析的问题。
- Machine learning
Full Stack data scientist
简单的说就是数据科学+数据工程
- 数据质量
- 特征选择
- 模型
能够跟踪到原始数据的一些问题,而不是只是使用别人的数据。要求大数据方面的知识。
你要把一个商业问题转化成为数据中的问题。
使用过spark,hadoop处理过几百个GB的数据。
image.png做一个数据分析的项目,从商业分析开始的,然后数据采集,数据处理,特征工程,建模,评估,部署,运营(看这个模型运用得怎么样,反馈一些问题),优化
image.png
分布式计算
image.png image.png image.pnglambda Architechture
image.png
网友评论