数据科学概要:
https://coggle.it/diagram/WypjBWlbpEHkyhcg/t/data-science-for�managers/c0083ef2d003b849535618df0b84e6dad73e301910c45e7eab5b72ff12f016e0
本质
针对数据本身做ETL
E- 抽取,清洗
T- 转置,按照某个格式存储到分布式系统中
L- 加载,放到分布式环境上跑
核心内容
可视化
自身需求
快速学习能力
本科数学能力
技术栈
高级语言 C++
脚本语言 python
前端 ios 安卓 ( 看的懂,会迁移即可)
python基础环节:
numpy - 对数据本身进行计算
pandas - 表格的存储
matplotlib - 数据可视化
大数据环节:
数据流计算
- spark
- Flink
可视化方面
- numpy
- pandas
- matplotlib
- seaborn
核心算法方面
- sklearn
- xgboost
网友评论