数据分析的专业人员懂得大数据的整体框架,能够做数据工程方面的工作。这个就是full stack data scientist
![](https://img.haomeiwen.com/i2562595/01dddb1d62c6d84a.png)
数据工程师与数据科学家
数据工程时做的是大量的数据存储管理相关的工作。
数据分析师/ 数据科学家 :在大范围的数据源进行的一些数据的分析。
数据工程师
![](https://img.haomeiwen.com/i2562595/fe02f8fbf89e50c1.png)
- 做数据库
- SQL database
- NoSql database
- Data modeling(将公司的一些商业过程,商业要求映射成为数据库的数据)
- Extract,Transform and load (ETL)将数据源能够放到数据仓库里面
- Hadoop - based data storage and managements
- Spark system(大数据的平台)
- Cloud system (云计算,没有资源建立自己的数据中心,就是用云数据中心)
- Data mining 有些是又一个数据工程的team来完成所有数据工程的东西,又一个data science 的team 来完成所有数据分析方面的东西。有很多公司是按照产品线来,我有一个产品,这个产品配有数据工程时解决数据数据工程的问题,数据科学家处理数据分析的问题。
- Machine learning
![](https://img.haomeiwen.com/i2562595/729847f60bfd2eab.png)
Full Stack data scientist
简单的说就是数据科学+数据工程
- 数据质量
- 特征选择
- 模型
能够跟踪到原始数据的一些问题,而不是只是使用别人的数据。要求大数据方面的知识。
你要把一个商业问题转化成为数据中的问题。
使用过spark,hadoop处理过几百个GB的数据。
![](https://img.haomeiwen.com/i2562595/ed70c2dc396e238c.png)
做一个数据分析的项目,从商业分析开始的,然后数据采集,数据处理,特征工程,建模,评估,部署,运营(看这个模型运用得怎么样,反馈一些问题),优化
![](https://img.haomeiwen.com/i2562595/728575737595b593.png)
分布式计算
![](https://img.haomeiwen.com/i2562595/313c4be4c406b145.png)
![](https://img.haomeiwen.com/i2562595/d44c64899c03287a.png)
![](https://img.haomeiwen.com/i2562595/8c3c07c90160a80f.png)
lambda Architechture
![](https://img.haomeiwen.com/i2562595/3c2493f3478787f4.png)
data engineer
![](https://img.haomeiwen.com/i2562595/c7990fd5c0ffc24b.png)
![](https://img.haomeiwen.com/i2562595/af928cbc1b1624f2.png)
![](https://img.haomeiwen.com/i2562595/3d17eb5b9446c105.png)
![](https://img.haomeiwen.com/i2562595/d3e327e3abe099a6.png)
![](https://img.haomeiwen.com/i2562595/631d4d1790b8882d.png)
![](https://img.haomeiwen.com/i2562595/882ff8c907c116fb.png)
网友评论